Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:coches

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
taller-web-scraping-hirikilabs:coches [2018/02/07 19:41] hmeleirostaller-web-scraping-hirikilabs:coches [2018/02/15 17:58] (actual) – [Scrapeo coches.net] hmeleiros
Línea 5: Línea 5:
  
 Por ahora, el script genera un índice de links de las últimas 91 páginas de la sección de coches de segunda mano y extrae información básica de las fichas de los anuncios (título del anuncio, marca del coche, precio, provincia, tipo de motor, año de fabricación, kilometraje y url del anuncio). Puesto que en los propios anuncios hay más información que en las fichas, el próximo paso de desarrollo podría ser ampliar el código para generar un índice de links de anuncios para enriquecer aún más la base de datos con campos como la potencia del motor o las emisiones CO2. También es necesario avanzar en 1) el formato del texto para que las tildes se escriban bien en el output, y 2) Mejorar el campo de Marca, que por ahora se consigue extrayendo la primera palabra del título y que en realidad se debería hacer extrayendo el valor del campo Marca en el anuncio de coches.net. Por ahora, el script genera un índice de links de las últimas 91 páginas de la sección de coches de segunda mano y extrae información básica de las fichas de los anuncios (título del anuncio, marca del coche, precio, provincia, tipo de motor, año de fabricación, kilometraje y url del anuncio). Puesto que en los propios anuncios hay más información que en las fichas, el próximo paso de desarrollo podría ser ampliar el código para generar un índice de links de anuncios para enriquecer aún más la base de datos con campos como la potencia del motor o las emisiones CO2. También es necesario avanzar en 1) el formato del texto para que las tildes se escriban bien en el output, y 2) Mejorar el campo de Marca, que por ahora se consigue extrayendo la primera palabra del título y que en realidad se debería hacer extrayendo el valor del campo Marca en el anuncio de coches.net.
 +
 +
 +Actualización (15/02/2018):
 +
 +He "traducido" el web scraper a R, he mejorado algunas cosas y he comprobado que no da errores (he conseguido descargar los últimos 180.000 anuncios en tres horas). Se puede encontrar en mi [[https://github.com/meneos/cochista|Github]].
 +
  
  
taller-web-scraping-hirikilabs/coches.1518028911.txt.gz · Última modificación: 2018/02/07 19:41 por hmeleiros