taller-web-scraping-hirikilabs:meneame-titulares
¡Esta es una revisión vieja del documento!
Ejemplo de script para extraer varias variables de meneame.net
Código para extraer título de noticia, número de meneames y número de clicks de las 20 primeras páginas de meneame.net y guardarlo en un fichero .csv:
import csv
import urllib2
from bs4 import BeautifulSoup
outputpath = 'titulos.csv'
with open(outputpath, 'w') as outfile:
writer = csv.writer(outfile)
for counter in range(1,20):
url = 'https://www.meneame.net/?page='+str(counter)
# Get URL
response = urllib2.Request(url)
pagedata = urllib2.urlopen(response)
html = pagedata.read()
# Get links
soup = BeautifulSoup(html, "html.parser")
boxes = soup.select(".news-body")
for box in boxes:
title = box.select('h2 a')[0].get_text().encode('utf-8').strip()
vote = box.select('.votes a')[0].get_text().encode('utf-8')
click = box.select('.clics')[0].get_text().encode('utf-8').replace(' clics', '').lstrip()
print title + vote + click
writer.writerow([title,vote,click])
Análisis de datos
Análisis del resultado con Databasic.io:
- Palabras con más frecuencia, bigramas y trigramas: https://databasic.io/es/wordcounter/results/5a7a4a4f7088b48e0b1c5fa3
- Distribución de datos en columnas: https://databasic.io/en/wtfcsv/results/5a7a45707088b48e0b1c5fa0
taller-web-scraping-hirikilabs/meneame-titulares.1517964042.txt.gz · Última modificación: por numeroteca