Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:arte

¡Esta es una revisión vieja del documento!


Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo.

A lo grande Cristina y yo iremos a por el Museo del Prado web https://www.museodelprado.es nos acercamos a la busqueda y utilizando el truco de asteriscos * sacamos la cantidad de obras 15361 resultados

ahora a por ellos e intentar bajarlos todos https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*

import urllib2
from bs4 import BeautifulSoup

url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********'
# Soy Mozilla
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}

# Get URL
response = urllib2.Request(url,headers=headers)
pagedata = urllib2.urlopen(response)
html = pagedata.read()

# Get links
soup = BeautifulSoup(html, "html.parser")
links = soup.select('.mostrable dt a')

for link in links:
    print link.get_text()
taller-web-scraping-hirikilabs/arte.1518026812.txt.gz · Última modificación: 2018/02/07 19:06 por zyrano66