taller-web-scraping-hirikilabs:meneame-titulares
¡Esta es una revisión vieja del documento!
Ejemplo de script para extraer varias variables de meneame.net
Código para extraer título de noticia, número de meneames y número de clicks de las 20 primeras páginas de meneame.net y guardarlo en un fichero .csv:
import csv import urllib2 from bs4 import BeautifulSoup outputpath = 'titulos.csv' with open(outputpath, 'w') as outfile: writer = csv.writer(outfile) for counter in range(1,20): url = 'https://www.meneame.net/?page='+str(counter) # Get URL response = urllib2.Request(url) pagedata = urllib2.urlopen(response) html = pagedata.read() # Get links soup = BeautifulSoup(html, "html.parser") boxes = soup.select(".news-body") for box in boxes: title = box.select('h2 a')[0].get_text().encode('utf-8').strip() vote = box.select('.votes a')[0].get_text().encode('utf-8') click = box.select('.clics')[0].get_text().encode('utf-8').replace(' clics', '').lstrip() print title + vote + click writer.writerow([title,vote,click])
Análisis del resultado con Databasic.io: https://databasic.io/en/wtfcsv/results/5a7a45707088b48e0b1c5fa0?submit=true
taller-web-scraping-hirikilabs/meneame-titulares.1517963610.txt.gz · Última modificación: 2018/02/07 01:33 por numeroteca