Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:arte

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
Última revisiónAmbos lados, revisión siguiente
taller-web-scraping-hirikilabs:arte [2018/02/07 18:56] zyrano66taller-web-scraping-hirikilabs:arte [2018/02/07 19:46] numeroteca
Línea 1: Línea 1:
 +====== Obras del Museo del Prado ======
 +
 +
 Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo. Intentamos sacar litografias y grabados de arte de Milanuncios, desestimamos mil anuncios por la cantidad de filtros que nos impiden objetivo.
  
Línea 13: Línea 16:
 from bs4 import BeautifulSoup from bs4 import BeautifulSoup
  
-url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********' 
 # Soy Mozilla # Soy Mozilla
 headers = { headers = {
Línea 19: Línea 21:
 } }
  
-# Get URL +for counter in range(1,1111): 
-response = urllib2.Request(url,headers=headers) + 
-pagedata = urllib2.urlopen(response) +    url = 'https://www.museodelprado.es/coleccion/obras-de-arte?searchObras=*********|pagina='+str(counter) 
-html = pagedata.read()+ 
 +    # Get URL 
 +    response = urllib2.Request(url,headers=headers) 
 +    pagedata = urllib2.urlopen(response) 
 +    html = pagedata.read() 
 + 
 +    # Get links 
 +    soup = BeautifulSoup(html, "html.parser"
 +    links = soup.select('.mostrable dt a') 
 + 
 +    for link in links: 
 +        print link.get_text()
  
-# Get links 
-soup = BeautifulSoup(html, "html.parser") 
-links = soup.select('.mostrable dt a') 
  
-for link in links: 
-    print link 
 </code> </code>
  
 +Funciona perfectamente con pequeño problema de duplicados que repararemos.
  
 +Creadores Cristina Miranda cristmiranda@telefonica.net 
 +Oscar Frutos pcorax@gmail.com
taller-web-scraping-hirikilabs/arte.txt · Última modificación: 2018/03/20 00:23 por numeroteca