Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:meneame-titulares

¡Esta es una revisión vieja del documento!


Ejemplo de script para extraer varias variables de meneame.net

Código para extraer título de noticia, número de meneames, número de clicks, número de comentarios de las 10 primeras páginas de meneame.net y guardarlo en un fichero .csv:

import csv
import urllib2
from bs4 import BeautifulSoup

outputpath = "links.csv"

with open(outputpath, "w") as outfile:

  writer = csv.writer(outfile)
  for counter in range(1,10):

    url = "https://www.meneame.net/?page="+str(counter)

		# Get URL
    response = urllib2.Request(url)
    pagedata = urllib2.urlopen(response)
    html = pagedata.read()

    # Get links
    soup = BeautifulSoup(html, "html.parser")
    boxes = soup.select(".news-body")
        
    for box in boxes:
        
      title = box.select("h2 a")[0].get_text().encode("utf-8").strip()
      vote = box.select(".votes a")[0].get_text().encode("utf-8")
      click = box.select(".clics")[0].get_text().encode("utf-8").replace(" clics", "").replace("  ", "").lstrip()
      comment = box.select(".comments")[0].get_text().encode("utf-8").replace("comentarios", "").lstrip()
      
      #print comment
      writer.writerow([title,vote,click,comment])

Análisis de datos

Análisis del resultado con Databasic.io:

En R podemos hacer una rápida visualización para ver si hay correlaciones entre los valores numéricos:

meneame <- read.delim("links.csv",sep = ",") 
plot(meneame)

library(GGally)
library("tidyverse")
ggpairs(meneame,
        columns = c(2:4),
        title = "buscando correlaciones", 
        # upper = list(continuous = "density"),
        aes(alpha = 0.1))
taller-web-scraping-hirikilabs/meneame-titulares.1518017975.txt.gz · Última modificación: 2018/02/07 16:39 por numeroteca