taller-web-scraping-hirikilabs:meneame-titulares
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
taller-web-scraping-hirikilabs:meneame-titulares [2018/02/07 01:33] – numeroteca | taller-web-scraping-hirikilabs:meneame-titulares [2018/02/07 16:45] (actual) – [Análisis de datos] numeroteca | ||
---|---|---|---|
Línea 1: | Línea 1: | ||
======= Ejemplo de script para extraer varias variables de meneame.net ======= | ======= Ejemplo de script para extraer varias variables de meneame.net ======= | ||
- | Código para extraer título de noticia, número de meneames | + | Código para extraer título de noticia, número de meneames, número de clicks, número de comentarios |
< | < | ||
Línea 7: | Línea 7: | ||
from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
- | outputpath = ' | + | outputpath = "links.csv" |
- | with open(outputpath, | + | with open(outputpath, |
writer = csv.writer(outfile) | writer = csv.writer(outfile) | ||
- | for counter in range(1,20): | + | for counter in range(1,10): |
- | url = 'https:// | + | url = "https:// |
# Get URL | # Get URL | ||
Línea 27: | Línea 27: | ||
for box in boxes: | for box in boxes: | ||
| | ||
- | title = box.select('h2 a')[0].get_text().encode('utf-8').strip() | + | title = box.select("h2 a")[0].get_text().encode("utf-8").strip() |
- | vote = box.select('.votes a')[0].get_text().encode('utf-8') | + | vote = box.select(".votes a")[0].get_text().encode("utf-8") |
- | click = box.select('.clics')[0].get_text().encode('utf-8').replace(' | + | click = box.select(".clics")[0].get_text().encode("utf-8").replace(" |
+ | comment = box.select(" | ||
| | ||
- | print title + vote + click | + | |
- | writer.writerow([title, | + | writer.writerow([title, |
+ | ===== Análisis de datos ===== | ||
Análisis del resultado con Databasic.io: | Análisis del resultado con Databasic.io: | ||
- | https:// | + | |
+ | * Palabras con más frecuencia, bigramas y trigramas: https:// | ||
+ | * Distribución de datos en columnas: | ||
+ | |||
+ | |||
+ | En R podemos hacer una rápida visualización para ver si hay correlaciones entre los valores numéricos: | ||
+ | |||
+ | < | ||
+ | meneame <- read.delim(" | ||
+ | plot(meneame) | ||
+ | |||
+ | # CArga las librerías. Si no las tienes insaltaladas tienes que instalaras con '' | ||
+ | library(GGally) | ||
+ | library(" | ||
+ | ggpairs(meneame, | ||
+ | columns = c(2:4), | ||
+ | title = " | ||
+ | # upper = list(continuous = " | ||
+ | aes(alpha = 0.1)) | ||
+ | </ | ||
+ | |||
+ | Esta es la visualicación que genera: | ||
+ | |||
+ | {{: | ||
+ | |||
+ | Podemos ver los diagramas de dispersión que comparan las tres variables numéricas y los coeficientes de correlación calculados. |
taller-web-scraping-hirikilabs/meneame-titulares.txt · Última modificación: 2018/02/07 16:45 por numeroteca