Diferencias

Muestra las diferencias entre dos versiones de la página.

--- taller-web-scraping-hirikilabs:arte [2018/02/07 17:38] – creado zyrano66
+++ taller-web-scraping-hirikilabs:arte [2018/02/07 19:46] – numeroteca
@@ Línea 1: / Línea 1: @@
-Sacamos arte de Milanuncios
+====== Obras del Museo del Prado ======
+Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo.
+A lo grande Cristina y yo iremos a por el Museo del Prado
+web
+https://www.museodelprado.es
+nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados
+ahora a por ellos e intentar bajarlos todos
+https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********
+<code>import urllib2
+from bs4 import BeautifulSoup
+# Soy Mozilla
+headers = {
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
+}
+for counter in range(1,1111):
+    url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********|pagina='+str(counter)
+    # Get URL
+    response = urllib2.Request(url,headers=headers)
+    pagedata = urllib2.urlopen(response)
+    html = pagedata.read()
+    # Get links
+    soup = BeautifulSoup(html, "html.parser")
+    links = soup.select('.mostrable dt a')
+    for link in links:
+        print link.get_text()
+</code>
+Funciona perfectamente con pequeño problema de duplicados que repararemos.
+Creadores Cristina Miranda cristmiranda@telefonica.net
+Oscar Frutos pcorax@gmail.com