taller-web-scraping-hirikilabs:napartheid
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previaPróxima revisiónAmbos lados, revisión siguiente | ||
taller-web-scraping-hirikilabs:napartheid [2018/02/07 19:10] – iperugorria | taller-web-scraping-hirikilabs:napartheid [2018/02/07 19:19] – iperugorria | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
Objetivo: Descargar todas las páginas de todos los números del fanzine Napartheid. | Objetivo: Descargar todas las páginas de todos los números del fanzine Napartheid. | ||
- | Página web: napartheid.net | + | Página web: www.napartheid.net |
Características del fanzine: Fanzine publicado entre 1998-2001, con un total de 30 números. | Características del fanzine: Fanzine publicado entre 1998-2001, con un total de 30 números. | ||
Igor (ileturia) & Natxi (iperugorria@gmail.com) | Igor (ileturia) & Natxi (iperugorria@gmail.com) | ||
- | |||
Fecha: Febrero 7, 2018 | Fecha: Febrero 7, 2018 | ||
- | Página de inicio del scraping: | + | Página de inicio del scraping: |
- | napartheid.net/ | + | http://www.napartheid.net/ |
- | napartheid.net/ | + | |
- | napartheid.net/ | + | En esa página hay: |
- | napartheid.net/nap/napar/a/Page4.htm | + | 1) links a 8 números de revista |
+ | 2) link a " | ||
+ | |||
+ | En lugar de ir recorriendo los " | ||
+ | |||
+ | < | ||
+ | import urllib2 | ||
+ | import re | ||
+ | import wget | ||
+ | import os | ||
+ | from bs4 import BeautifulSoup | ||
+ | |||
+ | for revista in [' | ||
+ | |||
+ | print revista | ||
+ | |||
+ | os.mkdir(revista) | ||
+ | |||
+ | url_revista = ' | ||
+ | |||
+ | pagina = 1 | ||
+ | |||
+ | page_error = False | ||
+ | |||
+ | while not page_error: | ||
+ | |||
+ | print ' | ||
+ | |||
+ | if pagina==1: | ||
+ | url_pagina=' | ||
+ | else: | ||
+ | url_pagina=' | ||
+ | |||
+ | print ' | ||
+ | |||
+ | try: | ||
+ | |||
+ | # Get URL | ||
+ | response = urllib2.Request(url_revista+url_pagina) | ||
+ | pagedata = urllib2.urlopen(response) | ||
+ | html = pagedata.read() | ||
+ | |||
+ | # Get links | ||
+ | soup = BeautifulSoup(html, | ||
+ | links = soup.select(' | ||
+ | |||
+ | for link in links: | ||
+ | href = link.get(' | ||
+ | if not href.endswith(' | ||
+ | url_preview=url_revista+'/' | ||
+ | print ' | ||
+ | response2 = urllib2.Request(url_preview) | ||
+ | pagedata2 = urllib2.urlopen(response2) | ||
+ | html2 = pagedata2.read() | ||
+ | soup2 = BeautifulSoup(html2, | ||
+ | url_imagen = soup2.select(' | ||
+ | url_imagen=url_revista+url_imagen[2: | ||
+ | print ' | ||
+ | wget.download(url_imagen, | ||
+ | except: | ||
+ | page_error=True | ||
+ | |||
+ | pagina = pagina + 1 | ||
+ | </code> |
taller-web-scraping-hirikilabs/napartheid.txt · Última modificación: 2018/02/07 19:56 por numeroteca