taller-web-scraping-hirikilabs:meneame-titulares
¡Esta es una revisión vieja del documento!
Ejemplo de script para extraer varias variables de meneame.net
Código para extraer título de noticia, número de meneames, número de clicks, número de comentarios de las 10 primeras páginas de meneame.net y guardarlo en un fichero .csv:
import csv
import urllib2
from bs4 import BeautifulSoup
outputpath = "links.csv"
with open(outputpath, "w") as outfile:
writer = csv.writer(outfile)
for counter in range(1,10):
url = "https://www.meneame.net/?page="+str(counter)
# Get URL
response = urllib2.Request(url)
pagedata = urllib2.urlopen(response)
html = pagedata.read()
# Get links
soup = BeautifulSoup(html, "html.parser")
boxes = soup.select(".news-body")
for box in boxes:
title = box.select("h2 a")[0].get_text().encode("utf-8").strip()
vote = box.select(".votes a")[0].get_text().encode("utf-8")
click = box.select(".clics")[0].get_text().encode("utf-8").replace(" clics", "").replace(" ", "").lstrip()
comment = box.select(".comments")[0].get_text().encode("utf-8").replace("comentarios", "").lstrip()
#print comment
writer.writerow([title,vote,click,comment])
Análisis de datos
Análisis del resultado con Databasic.io:
- Palabras con más frecuencia, bigramas y trigramas: https://databasic.io/es/wordcounter/results/5a7a4a4f7088b48e0b1c5fa3
- Distribución de datos en columnas: https://databasic.io/en/wtfcsv/results/5a7a45707088b48e0b1c5fa0
En R podemos hacer una rápida visualización para ver si hay correlaciones entre los valores numéricos:
meneame <- read.delim("links.csv",sep = ",")
plot(meneame)
library(GGally)
library("tidyverse")
ggpairs(meneame,
columns = c(2:4),
title = "buscando correlaciones",
# upper = list(continuous = "density"),
aes(alpha = 0.1))
taller-web-scraping-hirikilabs/meneame-titulares.1518017975.txt.gz · Última modificación: por numeroteca