taller-web-scraping-hirikilabs:meneame-titulares
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| taller-web-scraping-hirikilabs:meneame-titulares [2018/02/07 01:40] – numeroteca | taller-web-scraping-hirikilabs:meneame-titulares [2018/02/07 16:45] (actual) – [Análisis de datos] numeroteca | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| ======= Ejemplo de script para extraer varias variables de meneame.net ======= | ======= Ejemplo de script para extraer varias variables de meneame.net ======= | ||
| - | Código para extraer título de noticia, número de meneames | + | Código para extraer título de noticia, número de meneames, número de clicks, número de comentarios |
| < | < | ||
| Línea 7: | Línea 7: | ||
| from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
| - | outputpath = ' | + | outputpath = "links.csv" |
| - | with open(outputpath, | + | with open(outputpath, |
| writer = csv.writer(outfile) | writer = csv.writer(outfile) | ||
| - | for counter in range(1,20): | + | for counter in range(1,10): |
| - | url = 'https:// | + | url = "https:// |
| # Get URL | # Get URL | ||
| Línea 27: | Línea 27: | ||
| for box in boxes: | for box in boxes: | ||
| | | ||
| - | title = box.select('h2 a')[0].get_text().encode('utf-8').strip() | + | title = box.select("h2 a")[0].get_text().encode("utf-8").strip() |
| - | vote = box.select('.votes a')[0].get_text().encode('utf-8') | + | vote = box.select(".votes a")[0].get_text().encode("utf-8") |
| - | click = box.select('.clics')[0].get_text().encode('utf-8').replace(' | + | click = box.select(".clics")[0].get_text().encode("utf-8").replace(" |
| + | comment = box.select(" | ||
| | | ||
| - | print title + vote + click | + | |
| - | writer.writerow([title, | + | writer.writerow([title, |
| ===== Análisis de datos ===== | ===== Análisis de datos ===== | ||
| Línea 41: | Línea 42: | ||
| * Distribución de datos en columnas: https:// | * Distribución de datos en columnas: https:// | ||
| + | |||
| + | En R podemos hacer una rápida visualización para ver si hay correlaciones entre los valores numéricos: | ||
| + | |||
| + | < | ||
| + | meneame <- read.delim(" | ||
| + | plot(meneame) | ||
| + | |||
| + | # CArga las librerías. Si no las tienes insaltaladas tienes que instalaras con '' | ||
| + | library(GGally) | ||
| + | library(" | ||
| + | ggpairs(meneame, | ||
| + | columns = c(2:4), | ||
| + | title = " | ||
| + | # upper = list(continuous = " | ||
| + | aes(alpha = 0.1)) | ||
| + | </ | ||
| + | |||
| + | Esta es la visualicación que genera: | ||
| + | |||
| + | {{: | ||
| + | |||
| + | Podemos ver los diagramas de dispersión que comparan las tres variables numéricas y los coeficientes de correlación calculados. | ||
taller-web-scraping-hirikilabs/meneame-titulares.1517964042.txt.gz · Última modificación: por numeroteca