taller-web-scraping-hirikilabs:napartheid
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previaPróxima revisiónAmbos lados, revisión siguiente | ||
taller-web-scraping-hirikilabs:napartheid [2018/02/07 19:12] – iperugorria | taller-web-scraping-hirikilabs:napartheid [2018/02/07 19:19] – iperugorria | ||
---|---|---|---|
Línea 6: | Línea 6: | ||
Página de inicio del scraping: | Página de inicio del scraping: | ||
- | napartheid.net/ | + | http://www.napartheid.net/ |
- | napartheid.net/ | + | |
- | napartheid.net/ | + | En esa página hay: |
- | napartheid.net/nap/napar/a/Page4.htm | + | 1) links a 8 números de revista |
+ | 2) link a " | ||
+ | |||
+ | En lugar de ir recorriendo los " | ||
+ | |||
+ | < | ||
+ | import urllib2 | ||
+ | import re | ||
+ | import wget | ||
+ | import os | ||
+ | from bs4 import BeautifulSoup | ||
+ | |||
+ | for revista in [' | ||
+ | |||
+ | print revista | ||
+ | |||
+ | os.mkdir(revista) | ||
+ | |||
+ | url_revista = ' | ||
+ | |||
+ | pagina = 1 | ||
+ | |||
+ | page_error = False | ||
+ | |||
+ | while not page_error: | ||
+ | |||
+ | print ' | ||
+ | |||
+ | if pagina==1: | ||
+ | url_pagina=' | ||
+ | else: | ||
+ | url_pagina=' | ||
+ | |||
+ | print ' | ||
+ | |||
+ | try: | ||
+ | |||
+ | # Get URL | ||
+ | response = urllib2.Request(url_revista+url_pagina) | ||
+ | pagedata = urllib2.urlopen(response) | ||
+ | html = pagedata.read() | ||
+ | |||
+ | # Get links | ||
+ | soup = BeautifulSoup(html, | ||
+ | links = soup.select(' | ||
+ | |||
+ | for link in links: | ||
+ | href = link.get(' | ||
+ | if not href.endswith(' | ||
+ | url_preview=url_revista+'/' | ||
+ | print ' | ||
+ | response2 = urllib2.Request(url_preview) | ||
+ | pagedata2 = urllib2.urlopen(response2) | ||
+ | html2 = pagedata2.read() | ||
+ | soup2 = BeautifulSoup(html2, | ||
+ | url_imagen = soup2.select(' | ||
+ | url_imagen=url_revista+url_imagen[2: | ||
+ | print ' | ||
+ | wget.download(url_imagen, | ||
+ | except: | ||
+ | page_error=True | ||
+ | |||
+ | pagina = pagina + 1 | ||
+ | </code> |
taller-web-scraping-hirikilabs/napartheid.txt · Última modificación: 2018/02/07 19:56 por numeroteca