Diferencias

Muestra las diferencias entre dos versiones de la página.

--- taller-web-scraping-hirikilabs:arte [2018/02/07 19:46] – numeroteca
+++ taller-web-scraping-hirikilabs:arte [2018/03/20 00:23] (actual) – añade exportación de scraping a archivo CSV (obras museo del prado) numeroteca
@@ Línea 4: / Línea 4: @@
 Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo.
-A lo grande Cristina y yo iremos a por el Museo del Prado
+A lo grande Cristina y yo iremos a por el Museo del Prado.
-web
-https://www.museodelprado.es
-nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados
-ahora a por ellos e intentar bajarlos todos
+Web: https://www.museodelprado.es
+Nos acercamos a la búsqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados
+Ahora a por ellos e intentar bajarlos todos
 https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********
-<code>import urllib2
+<code>
+import csv
+import urllib2
 from bs4 import BeautifulSoup
@@ Línea 21: / Línea 24: @@
 }
-for counter in range(1,1111):
+outputpath = "links.csv"
-    url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********|pagina='+str(counter)
+with open(outputpath, "w") as outfile:
-    # Get URL
+    writer = csv.writer(outfile)
-    response = urllib2.Request(url,headers=headers)
+    for counter in range(1,1111):
-    pagedata = urllib2.urlopen(response)
-    html = pagedata.read()
-    # Get links
+        url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********|pagina='+str(counter)
-    soup = BeautifulSoup(html, "html.parser")
-    links = soup.select('.mostrable dt a')
-    for link in links:
+        # Get URL
-        print link.get_text()
+        response = urllib2.Request(url,headers=headers)
+        pagedata = urllib2.urlopen(response)
+        html = pagedata.read()
+        # Get links
+        soup = BeautifulSoup(html, "html.parser")
+        links = soup.select('.mostrable figcaption dl dt a')
+        # autor = soup.select('.mostrable figcaption dl .autor a')
+        for link in links:
+            print link.get_text()
+            writer.writerow([link.get_text().encode("utf-8")])
 </code>