Diferencias

Muestra las diferencias entre dos versiones de la página.

--- taller-web-scraping-hirikilabs:arte [2018/02/07 18:52] – zyrano66
+++ taller-web-scraping-hirikilabs:arte [2018/03/20 00:23] (actual) – añade exportación de scraping a archivo CSV (obras museo del prado) numeroteca
@@ Línea 1: / Línea 1: @@
+====== Obras del Museo del Prado ======
 Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo.
-A lo grande Cristina y yo iremos a por el Museo del Prado
+A lo grande Cristina y yo iremos a por el Museo del Prado.
-web
-https://www.museodelprado.es
-nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados
-ahora a por ellos e intentar bajarlos todos
+Web: https://www.museodelprado.es
+Nos acercamos a la búsqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados
+Ahora a por ellos e intentar bajarlos todos
 https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********
+<code>
+import csv
+import urllib2
+from bs4 import BeautifulSoup
+# Soy Mozilla
+headers = {
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
+}
+outputpath = "links.csv"
+with open(outputpath, "w") as outfile:
+    writer = csv.writer(outfile)
+    for counter in range(1,1111):
+        url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********|pagina='+str(counter)
+        # Get URL
+        response = urllib2.Request(url,headers=headers)
+        pagedata = urllib2.urlopen(response)
+        html = pagedata.read()
+        # Get links
+        soup = BeautifulSoup(html, "html.parser")
+        links = soup.select('.mostrable figcaption dl dt a')
+        # autor = soup.select('.mostrable figcaption dl .autor a')
+        for link in links:
+            print link.get_text()
+            writer.writerow([link.get_text().encode("utf-8")])
+</code>
+Funciona perfectamente con pequeño problema de duplicados que repararemos.
+Creadores Cristina Miranda cristmiranda@telefonica.net
+Oscar Frutos pcorax@gmail.com