taller-web-scraping-hirikilabs:coches
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previaÚltima revisiónAmbos lados, revisión siguiente | ||
taller-web-scraping-hirikilabs:coches [2018/02/07 19:06] – hmeleiros | taller-web-scraping-hirikilabs:coches [2018/02/07 19:41] – hmeleiros | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
====== Scrapeo coches.net ====== | ====== Scrapeo coches.net ====== | ||
+ | --- // | ||
El objetivo de este proyecto es scrapear el portal de compra-venta de coches coches.net con la idea de hallar precios medios de coches de segunda mano por provincias y por marcas. | El objetivo de este proyecto es scrapear el portal de compra-venta de coches coches.net con la idea de hallar precios medios de coches de segunda mano por provincias y por marcas. | ||
- | Por ahora, el script genera un índice de links de las últimas 91 páginas de la sección de coches de segunda mano y extrae información básica de las fichas de los anuncios (título del anuncio, marca del coche, precio, provincia, tipo de motor, año de fabricación, | + | Por ahora, el script genera un índice de links de las últimas 91 páginas de la sección de coches de segunda mano y extrae información básica de las fichas de los anuncios (título del anuncio, marca del coche, precio, provincia, tipo de motor, año de fabricación, |
- | A continuación comparto el código. | ||
- | < | + | ===== Scrapeo ===== |
- | import csv | + | |
+ | A continuación comparto el código de python para el scrapeo. | ||
+ | |||
+ | < | ||
from urllib import request as urllib2 | from urllib import request as urllib2 | ||
from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
Línea 20: | Línea 22: | ||
writer = csv.writer(outfile) | writer = csv.writer(outfile) | ||
- | writer.writerow([' | + | writer.writerow([' |
num = 0 | num = 0 | ||
Línea 48: | Línea 50: | ||
link = ' | link = ' | ||
print (num, marca, precio, prov, motor, año, km, link) | print (num, marca, precio, prov, motor, año, km, link) | ||
- | | ||
- | </ | ||
+ | writer.writerow([num, | ||
+ | |||
+ | |||
+ | |||
+ | ===== Análisis datos ===== | ||
+ | |||
+ | A continuación pego el código en R para visualizar las medias por marca y provincia y los gráficos resultantes. | ||
+ | |||
+ | < | ||
+ | library(readr) | ||
+ | coches <- read_csv(" | ||
+ | | ||
+ | |||
+ | library(tidyverse) | ||
+ | |||
+ | |||
+ | medias.prov <- coches %>% group_by(provincia) %>% summarise(N = n(), media = mean(precio)) | ||
+ | medias.marcas <- coches %>% group_by(marca) %>% summarise(N = n(), media = mean(precio)) | ||
+ | |||
+ | prov_plot <- ggplot(medias.prov, | ||
+ | prov_plot + geom_col() + coord_flip() + labs(x = NULL, y = " | ||
+ | |||
+ | |||
+ | marcas_plot <- ggplot(medias.marcas, | ||
+ | marcas_plot + geom_col() + coord_flip() + labs(x = NULL, y = " | ||
+ | </ | ||
+ | |||
+ | |||
+ | ==== Gráficos ==== | ||
+ | |||
+ | |||
+ | Aquí los gráficos resultantes: | ||
+ | |||
+ | |||
+ | {{: | ||
+ | |||
+ | {{: | ||
+ | Aquí un [[https:// |
taller-web-scraping-hirikilabs/coches.txt · Última modificación: 2018/02/15 17:58 por hmeleiros