taller-web-scraping-hirikilabs:coches
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| taller-web-scraping-hirikilabs:coches [2018/02/07 19:00] – hmeleiros | taller-web-scraping-hirikilabs:coches [2018/02/15 17:58] (actual) – [Scrapeo coches.net] hmeleiros | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| - | ## Breve estudio sobre coches | + | ====== Scrapeo |
| + | --- // | ||
| El objetivo de este proyecto es scrapear el portal de compra-venta de coches coches.net con la idea de hallar precios medios de coches de segunda mano por provincias y por marcas. | El objetivo de este proyecto es scrapear el portal de compra-venta de coches coches.net con la idea de hallar precios medios de coches de segunda mano por provincias y por marcas. | ||
| - | Por ahora, el script genera un índice de links de las últimas 91 páginas de la sección de coches de segunda mano y extrae información básica de las fichas de los anuncios (título del anuncio, marca del coche, precio, provincia, tipo de motor, año de fabricación, | + | Por ahora, el script genera un índice de links de las últimas 91 páginas de la sección de coches de segunda mano y extrae información básica de las fichas de los anuncios (título del anuncio, marca del coche, precio, provincia, tipo de motor, año de fabricación, |
| - | A continuación comparto el código. | + | |
| + | Actualización (15/ | ||
| + | |||
| + | He " | ||
| + | |||
| + | |||
| + | |||
| + | ===== Scrapeo ===== | ||
| + | |||
| + | A continuación comparto el código | ||
| < | < | ||
| Línea 18: | Línea 28: | ||
| writer = csv.writer(outfile) | writer = csv.writer(outfile) | ||
| - | writer.writerow([' | + | writer.writerow([' |
| num = 0 | num = 0 | ||
| Línea 45: | Línea 55: | ||
| km = bloque.select(' | km = bloque.select(' | ||
| link = ' | link = ' | ||
| - | print (num, marca, precio, prov, motor, año, km, link)<\code> | + | print (num, marca, precio, prov, motor, año, km, link) |
| + | |||
| + | writer.writerow([num, | ||
| + | |||
| + | |||
| + | |||
| + | ===== Análisis datos ===== | ||
| + | |||
| + | A continuación pego el código en R para visualizar las medias por marca y provincia y los gráficos resultantes. | ||
| + | |||
| + | < | ||
| + | library(readr) | ||
| + | coches <- read_csv(" | ||
| + | | ||
| + | |||
| + | library(tidyverse) | ||
| + | |||
| + | |||
| + | medias.prov <- coches %>% group_by(provincia) %>% summarise(N = n(), media = mean(precio)) | ||
| + | medias.marcas <- coches %>% group_by(marca) %>% summarise(N = n(), media = mean(precio)) | ||
| + | |||
| + | prov_plot <- ggplot(medias.prov, | ||
| + | prov_plot + geom_col() + coord_flip() + labs(x = NULL, y = " | ||
| + | |||
| + | |||
| + | marcas_plot <- ggplot(medias.marcas, | ||
| + | marcas_plot + geom_col() + coord_flip() + labs(x = NULL, y = " | ||
| + | </ | ||
| + | |||
| + | |||
| + | ==== Gráficos ==== | ||
| + | |||
| + | |||
| + | Aquí los gráficos resultantes: | ||
| + | |||
| + | |||
| + | {{: | ||
| + | {{: | ||
| + | Aquí un [[https:// | ||
taller-web-scraping-hirikilabs/coches.1518026415.txt.gz · Última modificación: por hmeleiros