Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:meneame-titulares

¡Esta es una revisión vieja del documento!


Ejemplo de script para extraer varias variables de meneame.net

Código para extraer título de noticia, número de meneames y número de clicks de las 20 primeras páginas de meneame.net y guardarlo en un fichero .csv:

import csv
import urllib2
from bs4 import BeautifulSoup

outputpath = 'titulos.csv'

with open(outputpath, 'w') as outfile:

  writer = csv.writer(outfile)
  for counter in range(1,20):

    url = 'https://www.meneame.net/?page='+str(counter)

		# Get URL
    response = urllib2.Request(url)
    pagedata = urllib2.urlopen(response)
    html = pagedata.read()

    # Get links
    soup = BeautifulSoup(html, "html.parser")
    boxes = soup.select(".news-body")
        
    for box in boxes:
        
      title = box.select('h2 a')[0].get_text().encode('utf-8').strip()
      vote = box.select('.votes a')[0].get_text().encode('utf-8')
      click = box.select('.clics')[0].get_text().encode('utf-8').replace(' clics', '').lstrip()
      
      print title + vote + click
      writer.writerow([title,vote,click])

Análisis del resultado con Databasic.io: https://databasic.io/en/wtfcsv/results/5a7a45707088b48e0b1c5fa0?submit=true

taller-web-scraping-hirikilabs/meneame-titulares.1517963610.txt.gz · Última modificación: 2018/02/07 01:33 por numeroteca