taller-web-scraping-hirikilabs:meneame-titulares
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previa | Próxima revisiónAmbos lados, revisión siguiente | ||
taller-web-scraping-hirikilabs:meneame-titulares [2018/02/07 01:40] – numeroteca | taller-web-scraping-hirikilabs:meneame-titulares [2018/02/07 16:30] – añade número de comentarios numeroteca | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
======= Ejemplo de script para extraer varias variables de meneame.net ======= | ======= Ejemplo de script para extraer varias variables de meneame.net ======= | ||
- | Código para extraer título de noticia, número de meneames | + | Código para extraer título de noticia, número de meneames, número de clicks, número de comentarios |
< | < | ||
Línea 7: | Línea 7: | ||
from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
- | outputpath = ' | + | outputpath = "links.csv" |
- | with open(outputpath, | + | with open(outputpath, |
writer = csv.writer(outfile) | writer = csv.writer(outfile) | ||
- | for counter in range(1,20): | + | for counter in range(1,10): |
- | url = 'https:// | + | url = "https:// |
# Get URL | # Get URL | ||
Línea 27: | Línea 27: | ||
for box in boxes: | for box in boxes: | ||
| | ||
- | title = box.select('h2 a')[0].get_text().encode('utf-8').strip() | + | title = box.select("h2 a")[0].get_text().encode("utf-8").strip() |
- | vote = box.select('.votes a')[0].get_text().encode('utf-8') | + | vote = box.select(".votes a")[0].get_text().encode("utf-8") |
- | click = box.select('.clics')[0].get_text().encode('utf-8').replace(' | + | click = box.select(".clics")[0].get_text().encode("utf-8").replace(" |
+ | comment = box.select(" | ||
| | ||
- | print title + vote + click | + | |
- | writer.writerow([title, | + | writer.writerow([title, |
===== Análisis de datos ===== | ===== Análisis de datos ===== |
taller-web-scraping-hirikilabs/meneame-titulares.txt · Última modificación: 2018/02/07 16:45 por numeroteca