taller-web-scraping-hirikilabs:arte
Diferencias
Muestra las diferencias entre dos versiones de la página.
Próxima revisión | Revisión previaÚltima revisiónAmbos lados, revisión siguiente | ||
taller-web-scraping-hirikilabs:arte [2018/02/07 17:38] – creado zyrano66 | taller-web-scraping-hirikilabs:arte [2018/02/07 19:46] – numeroteca | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
- | Sacamos arte de Milanuncios | + | ====== Obras del Museo del Prado ====== |
+ | |||
+ | Intentamos sacar litografias y grabados de arte de Milanuncios, | ||
+ | |||
+ | A lo grande Cristina y yo iremos a por el Museo del Prado | ||
+ | web | ||
+ | https:// | ||
+ | nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados | ||
+ | |||
+ | ahora a por ellos e intentar bajarlos todos | ||
+ | https:// | ||
+ | |||
+ | |||
+ | < | ||
+ | from bs4 import BeautifulSoup | ||
+ | |||
+ | # Soy Mozilla | ||
+ | headers = { | ||
+ | ' | ||
+ | } | ||
+ | |||
+ | for counter in range(1, | ||
+ | |||
+ | url = ' | ||
+ | |||
+ | # Get URL | ||
+ | response = urllib2.Request(url, | ||
+ | pagedata = urllib2.urlopen(response) | ||
+ | html = pagedata.read() | ||
+ | |||
+ | # Get links | ||
+ | soup = BeautifulSoup(html, | ||
+ | links = soup.select(' | ||
+ | |||
+ | for link in links: | ||
+ | print link.get_text() | ||
+ | |||
+ | |||
+ | </ | ||
+ | |||
+ | Funciona perfectamente con pequeño problema de duplicados que repararemos. | ||
+ | |||
+ | Creadores Cristina Miranda cristmiranda@telefonica.net | ||
+ | Oscar Frutos pcorax@gmail.com |
taller-web-scraping-hirikilabs/arte.txt · Última modificación: 2018/03/20 00:23 por numeroteca