taller-web-scraping-hirikilabs:arte
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
taller-web-scraping-hirikilabs:arte [2018/02/07 19:06] – zyrano66 | taller-web-scraping-hirikilabs:arte [2018/03/20 00:23] (actual) – añade exportación de scraping a archivo CSV (obras museo del prado) numeroteca | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
+ | ====== Obras del Museo del Prado ====== | ||
+ | |||
+ | |||
Intentamos sacar litografias y grabados de arte de Milanuncios, | Intentamos sacar litografias y grabados de arte de Milanuncios, | ||
- | A lo grande Cristina y yo iremos a por el Museo del Prado | + | A lo grande Cristina y yo iremos a por el Museo del Prado. |
- | web | + | |
- | https://www.museodelprado.es | + | |
- | nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados | + | |
- | ahora a por ellos e intentar bajarlos todos | + | Web: https:// |
+ | |||
+ | Nos acercamos a la búsqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados | ||
+ | |||
+ | Ahora a por ellos e intentar bajarlos todos | ||
https:// | https:// | ||
- | < | + | < |
+ | import csv | ||
+ | import urllib2 | ||
from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
- | url = ' | ||
# Soy Mozilla | # Soy Mozilla | ||
headers = { | headers = { | ||
Línea 19: | Línea 24: | ||
} | } | ||
- | # Get URL | + | outputpath |
- | response | + | |
- | pagedata | + | with open(outputpath, " |
- | html = pagedata.read() | + | |
+ | writer | ||
+ | for counter in range(1, | ||
+ | |||
+ | url = ' | ||
- | # Get links | + | |
- | soup = BeautifulSoup(html, " | + | |
- | links = soup.select('.mostrable dt a') | + | |
+ | html = pagedata.read() | ||
- | for link in links: | + | # Get links |
- | print link.get_text() | + | soup = BeautifulSoup(html, |
+ | links = soup.select(' | ||
+ | # autor = soup.select(' | ||
+ | for link in links: | ||
+ | print link.get_text() | ||
+ | writer.writerow([link.get_text().encode(" | ||
</ | </ | ||
+ | Funciona perfectamente con pequeño problema de duplicados que repararemos. | ||
+ | Creadores Cristina Miranda cristmiranda@telefonica.net | ||
+ | Oscar Frutos pcorax@gmail.com |
taller-web-scraping-hirikilabs/arte.1518026812.txt.gz · Última modificación: 2018/02/07 19:06 por zyrano66