taller-web-scraping-hirikilabs:arte
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| taller-web-scraping-hirikilabs:arte [2018/02/07 18:56] – zyrano66 | taller-web-scraping-hirikilabs:arte [2018/03/20 00:23] (actual) – añade exportación de scraping a archivo CSV (obras museo del prado) numeroteca | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| + | ====== Obras del Museo del Prado ====== | ||
| + | |||
| + | |||
| Intentamos sacar litografias y grabados de arte de Milanuncios, | Intentamos sacar litografias y grabados de arte de Milanuncios, | ||
| - | A lo grande Cristina y yo iremos a por el Museo del Prado | + | A lo grande Cristina y yo iremos a por el Museo del Prado. |
| - | web | + | |
| - | https://www.museodelprado.es | + | |
| - | nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados | + | |
| - | ahora a por ellos e intentar bajarlos todos | + | Web: https:// |
| + | |||
| + | Nos acercamos a la búsqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados | ||
| + | |||
| + | Ahora a por ellos e intentar bajarlos todos | ||
| https:// | https:// | ||
| - | < | + | < |
| + | import csv | ||
| + | import urllib2 | ||
| from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
| - | url = ' | ||
| # Soy Mozilla | # Soy Mozilla | ||
| headers = { | headers = { | ||
| Línea 19: | Línea 24: | ||
| } | } | ||
| - | # Get URL | + | outputpath = " |
| - | response = urllib2.Request(url, | + | |
| - | pagedata = urllib2.urlopen(response) | + | with open(outputpath, |
| - | html = pagedata.read() | + | |
| + | writer = csv.writer(outfile) | ||
| + | for counter in range(1, | ||
| + | |||
| + | url = ' | ||
| + | |||
| + | | ||
| + | response = urllib2.Request(url, | ||
| + | pagedata = urllib2.urlopen(response) | ||
| + | html = pagedata.read() | ||
| - | # Get links | + | |
| - | soup = BeautifulSoup(html, | + | soup = BeautifulSoup(html, |
| - | links = soup.select(' | + | links = soup.select(' |
| + | # autor = soup.select(' | ||
| - | for link in links: | + | |
| - | print link | + | print link.get_text() |
| + | writer.writerow([link.get_text().encode(" | ||
| </ | </ | ||
| + | Funciona perfectamente con pequeño problema de duplicados que repararemos. | ||
| + | Creadores Cristina Miranda cristmiranda@telefonica.net | ||
| + | Oscar Frutos pcorax@gmail.com | ||
taller-web-scraping-hirikilabs/arte.1518026169.txt.gz · Última modificación: por zyrano66