¡Esta es una revisión vieja del documento!

Ejemplo de script para extraer varias variables de meneame.net

Código para extraer título de noticia, número de meneames, número de clicks, número de comentarios de las 10 primeras páginas de meneame.net y guardarlo en un fichero .csv:

import csv
import urllib2
from bs4 import BeautifulSoup

outputpath = "links.csv"

with open(outputpath, "w") as outfile:

  writer = csv.writer(outfile)
  for counter in range(1,10):

    url = "https://www.meneame.net/?page="+str(counter)

		# Get URL
    response = urllib2.Request(url)
    pagedata = urllib2.urlopen(response)
    html = pagedata.read()

    # Get links
    soup = BeautifulSoup(html, "html.parser")
    boxes = soup.select(".news-body")
        
    for box in boxes:
        
      title = box.select("h2 a")[0].get_text().encode("utf-8").strip()
      vote = box.select(".votes a")[0].get_text().encode("utf-8")
      click = box.select(".clics")[0].get_text().encode("utf-8").replace(" clics", "").replace("  ", "").lstrip()
      comment = box.select(".comments")[0].get_text().encode("utf-8").replace("comentarios", "").lstrip()
      
      #print comment
      writer.writerow([title,vote,click,comment])

Análisis de datos

Análisis del resultado con Databasic.io:

Palabras con más frecuencia, bigramas y trigramas: https://databasic.io/es/wordcounter/results/5a7a4a4f7088b48e0b1c5fa3
Distribución de datos en columnas: https://databasic.io/en/wtfcsv/results/5a7a45707088b48e0b1c5fa0

En R podemos hacer una rápida visualización para ver si hay correlaciones entre los valores numéricos:

meneame <- read.delim("links.csv",sep = ",") 
plot(meneame)

library(GGally)
library("tidyverse")
ggpairs(meneame,
        columns = c(2:4),
        title = "buscando correlaciones", 
        # upper = list(continuous = "density"),
        aes(alpha = 0.1))