Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:napartheid

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
Próxima revisiónAmbos lados, revisión siguiente
taller-web-scraping-hirikilabs:napartheid [2018/02/07 19:12] iperugorriataller-web-scraping-hirikilabs:napartheid [2018/02/07 19:19] iperugorria
Línea 6: Línea 6:
  
 Página de inicio del scraping: Página de inicio del scraping:
-napartheid.net/nap/napar/a/default.htm +http://www.napartheid.net/nap/napar/napar.htm 
-napartheid.net/nap/napar/a/Page2.htm + 
-napartheid.net/nap/napar/a/Page3.htm +En esa página hay: 
-napartheid.net/nap/napar/a/Page4.htm+1) links a 8 números de revista 
 +2) link a "hurregoa" con otros 8, y así sucesivamente. 
 + 
 +En lugar de ir recorriendo los "hurrengoa", como se ha observado que todas las revistas tenían urls específicas, y además solamente funcionaban los links de 13 de ellas, hemos escrito las urls en una lista. 
 + 
 +<code> 
 +import urllib2 
 +import re 
 +import wget 
 +import os 
 +from bs4 import BeautifulSoup 
 + 
 +for revista in ['01','02','03','04','05','06','07','08_9','10','11','13']: 
 + 
 + print revista 
 + 
 + os.mkdir(revista) 
 + 
 + url_revista = 'http://www.napartheid.net/nap/napar/'+revista 
 + 
 + pagina = 1 
 + 
 + page_error = False 
 + 
 + while not page_error: 
 + 
 + print '\t',pagina 
 + 
 + if pagina==1: 
 + url_pagina='/default.htm' 
 + else: 
 + url_pagina='/Page'+str(pagina)+'.htm' 
 + 
 + print '\t',url_revista+url_pagina 
 + 
 + try: 
 + 
 + # Get URL 
 + response = urllib2.Request(url_revista+url_pagina) 
 + pagedata = urllib2.urlopen(response) 
 + html = pagedata.read() 
 + 
 + # Get links 
 + soup = BeautifulSoup(html, "html.parser"
 + links = soup.select('a') 
 + 
 + for link in links: 
 + href = link.get('href'
 + if not href.endswith('default.htm') and not re.search('Page[1-9]\.htm',href): 
 + url_preview=url_revista+'/'+href 
 + print '\t\t'+url_preview 
 + response2 = urllib2.Request(url_preview) 
 + pagedata2 = urllib2.urlopen(response2) 
 + html2 = pagedata2.read() 
 + soup2 = BeautifulSoup(html2, "html.parser"
 + url_imagen = soup2.select('img')[0].get('src'
 + url_imagen=url_revista+url_imagen[2:
 + print '\t\t\t'+url_imagen 
 + wget.download(url_imagen,revista+'/'+url_imagen.split('/')[-1]) 
 + except: 
 + page_error=True 
 + 
 + pagina = pagina + 1 
 +</code>
taller-web-scraping-hirikilabs/napartheid.txt · Última modificación: 2018/02/07 19:56 por numeroteca