Diferencias

Muestra las diferencias entre dos versiones de la página.

--- taller-web-scraping-hirikilabs:arte [2018/02/07 18:56] – zyrano66
+++ taller-web-scraping-hirikilabs:arte [2018/03/20 00:23] (actual) – añade exportación de scraping a archivo CSV (obras museo del prado) numeroteca
@@ Línea 1: / Línea 1: @@
+====== Obras del Museo del Prado ======
 Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo.
-A lo grande Cristina y yo iremos a por el Museo del Prado
+A lo grande Cristina y yo iremos a por el Museo del Prado.
-web
-https://www.museodelprado.es
-nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados
-ahora a por ellos e intentar bajarlos todos
+Web: https://www.museodelprado.es
+Nos acercamos a la búsqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados
+Ahora a por ellos e intentar bajarlos todos
 https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********
-<code>import urllib2
+<code>
+import csv
+import urllib2
 from bs4 import BeautifulSoup
-url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********'
 # Soy Mozilla
 headers = {
@@ Línea 19: / Línea 24: @@
 }
-# Get URL
+outputpath = "links.csv"
-response = urllib2.Request(url,headers=headers)
-pagedata = urllib2.urlopen(response)
+with open(outputpath, "w") as outfile:
-html = pagedata.read()
+    writer = csv.writer(outfile)
+    for counter in range(1,1111):
+        url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********|pagina='+str(counter)
+        # Get URL
+        response = urllib2.Request(url,headers=headers)
+        pagedata = urllib2.urlopen(response)
+        html = pagedata.read()
-# Get links
+        # Get links
-soup = BeautifulSoup(html, "html.parser")
+        soup = BeautifulSoup(html, "html.parser")
-links = soup.select('.mostrable dt a')
+        links = soup.select('.mostrable figcaption dl dt a')
+        # autor = soup.select('.mostrable figcaption dl .autor a')
-for link in links:
+        for link in links:
-    print link
+            print link.get_text()
+            writer.writerow([link.get_text().encode("utf-8")])
 </code>
+Funciona perfectamente con pequeño problema de duplicados que repararemos.
+Creadores Cristina Miranda cristmiranda@telefonica.net
+Oscar Frutos pcorax@gmail.com