======= Ejemplo de script para extraer varias variables de meneame.net ======= Código para extraer título de noticia, número de meneames, número de clicks, número de comentarios de las 10 primeras páginas de meneame.net y guardarlo en un fichero .csv: import csv import urllib2 from bs4 import BeautifulSoup outputpath = "links.csv" with open(outputpath, "w") as outfile: writer = csv.writer(outfile) for counter in range(1,10): url = "https://www.meneame.net/?page="+str(counter) # Get URL response = urllib2.Request(url) pagedata = urllib2.urlopen(response) html = pagedata.read() # Get links soup = BeautifulSoup(html, "html.parser") boxes = soup.select(".news-body") for box in boxes: title = box.select("h2 a")[0].get_text().encode("utf-8").strip() vote = box.select(".votes a")[0].get_text().encode("utf-8") click = box.select(".clics")[0].get_text().encode("utf-8").replace(" clics", "").replace(" ", "").lstrip() comment = box.select(".comments")[0].get_text().encode("utf-8").replace("comentarios", "").lstrip() #print comment writer.writerow([title,vote,click,comment]) ===== Análisis de datos ===== Análisis del resultado con Databasic.io: * Palabras con más frecuencia, bigramas y trigramas: https://databasic.io/es/wordcounter/results/5a7a4a4f7088b48e0b1c5fa3 * Distribución de datos en columnas: https://databasic.io/en/wtfcsv/results/5a7a45707088b48e0b1c5fa0 En R podemos hacer una rápida visualización para ver si hay correlaciones entre los valores numéricos: meneame <- read.delim("links.csv",sep = ",") plot(meneame) # CArga las librerías. Si no las tienes insaltaladas tienes que instalaras con ''installed.packages("GGally)'' library(GGally) library("tidyverse") ggpairs(meneame, columns = c(2:4), title = "buscando correlaciones", # upper = list(continuous = "density"), aes(alpha = 0.1)) Esta es la visualicación que genera: {{:taller-web-scraping-hirikilabs:meneame-relaciones.png?400|}} Podemos ver los diagramas de dispersión que comparan las tres variables numéricas y los coeficientes de correlación calculados.