Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:arte

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
taller-web-scraping-hirikilabs:arte [2018/02/07 18:56] zyrano66taller-web-scraping-hirikilabs:arte [2018/03/20 00:23] (actual) – añade exportación de scraping a archivo CSV (obras museo del prado) numeroteca
Línea 1: Línea 1:
 +====== Obras del Museo del Prado ======
 +
 +
 Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo. Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo.
  
-A lo grande Cristina y yo iremos a por el Museo del Prado +A lo grande Cristina y yo iremos a por el Museo del Prado.
-web +
-https://www.museodelprado.es +
-nos acercamos a la busqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados+
  
-ahora a por ellos e intentar bajarlos todos+Web: https://www.museodelprado.es 
 + 
 +Nos acercamos a la búsqueda y utilizando el truco de asteriscos ********* sacamos la cantidad de obras 15361 resultados 
 + 
 +Ahora a por ellos e intentar bajarlos todos
 https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=********* https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********
  
  
-<code>import urllib2+<code> 
 +import csv 
 +import urllib2
 from bs4 import BeautifulSoup from bs4 import BeautifulSoup
  
-url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********' 
 # Soy Mozilla # Soy Mozilla
 headers = { headers = {
Línea 19: Línea 24:
 } }
  
-# Get URL +outputpath = "links.csv" 
-response = urllib2.Request(url,headers=headers) + 
-pagedata = urllib2.urlopen(response) +with open(outputpath, "w") as outfile: 
-html = pagedata.read()+ 
 +    writer = csv.writer(outfile) 
 +    for counter in range(1,1111): 
 + 
 +        url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********|pagina='+str(counter) 
 + 
 +        # Get URL 
 +        response = urllib2.Request(url,headers=headers) 
 +        pagedata = urllib2.urlopen(response) 
 +        html = pagedata.read()
  
-# Get links +        # Get links 
-soup = BeautifulSoup(html, "html.parser"+        soup = BeautifulSoup(html, "html.parser"
-links = soup.select('.mostrable dt a')+        links = soup.select('.mostrable figcaption dl dt a') 
 +        # autor = soup.select('.mostrable figcaption dl .autor a')
  
-for link in links: +        for link in links: 
-    print link+            print link.get_text() 
 +            writer.writerow([link.get_text().encode("utf-8")])
 </code> </code>
  
 +Funciona perfectamente con pequeño problema de duplicados que repararemos.
  
 +Creadores Cristina Miranda cristmiranda@telefonica.net 
 +Oscar Frutos pcorax@gmail.com
taller-web-scraping-hirikilabs/arte.1518026169.txt.gz · Última modificación: 2018/02/07 18:56 por zyrano66