Herramientas de usuario

Herramientas del sitio


airbnb:pregunta:nube-palabras-anuncios

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Próxima revisión
Revisión previa
airbnb:pregunta:nube-palabras-anuncios [2018/04/15 17:12]
numeroteca creado
airbnb:pregunta:nube-palabras-anuncios [2019/04/04 00:31] (actual)
numeroteca [Análisis espacial]
Línea 1: Línea 1:
-====== ¿Cómo se anuncian los pisos? Un análisis de las palabras usadas======+====== ¿Cómo se anuncian los pisos? Un análisis de las palabras usadas ======
  
 **Dificultad**:​ //MEDIA// **Dificultad**:​ //MEDIA//
Línea 40: Línea 40:
  
 https://​databasic.io/​en/​wordcounter https://​databasic.io/​en/​wordcounter
 +
 +==== Número de palabras con línea de comandos ====
 +
 +Como se describe en este ejercicio: https://​www.datascienceatthecommandline.com/​chapter-4-creating-reusable-command-line-tools.html#​converting-one-liners-into-shell-scripts
 +
 +Selecciona la columna 5 (que incluye los nombres de los anuncios):
 +
 +awk -F, '​{OFS=",";​print $5}' listings_donostia_simple.csv > names.csv
 +
 +Ahora calcula las palabras más usadas:
 +
 +cat names.csv | tr '​[:​upper:​]'​ '​[:​lower:​]'​ | grep -oE '​\w+'​ | sort | uniq -c | sort -nr | head -n 10
 +
 +    145 in
 +    144 en
 +    129 room
 +    125 beach
 +    122 the
 +    114 apartment
 +    110 san
 +    100 la
 +     95 wifi
 +     91 de
 +     88 habitación
 +     81 con
 +     80 playa
 +     79 old
 +     77 apartamento
 +     69 a
 +     67 sebastian
 +     64 town
 +     62 parking
 +     58 by
 +     56 piso
 +     53 with
 +     53 center
 +     52 rentals
 +     51 y
 +     51 feelfree
 +     50 zurriola
 +     49 concha
 +     48 centro
 +     46 to
 +
 +==== Análisis espacial ====
 +
 +{{:​airbnb:​pregunta:​playa-centro-mapa-barrios-titulo.png?​400|}}
 +
 +En este script de R https://​code.montera34.com/​airbnb/​valencia/​blob/​master/​analysis/​palabras.R se muestra cómo generar mapas de presencia de palabras en barrios y distritos para el caso de Valencia:
 +
 +  - Se traducen a un mismo idioma los títulos y descripciones. En google spreadsheets:​ la fórmula <​code>​=DETECTLANGUAGE(E2)</​code>​ permite detectar el idioma usado en la celda E2. Luego puedes traducir con <​code>​=GOOGLETRANSLATE(E2;​T2;"​es"​)</​code>​ que traduce el contenido de la celda E2 del idioma definido en la celda T2 al español.
 +  - Se cuantifica con tablas dinámicas o con R el número de anuncios por distrito o barrio para calcular su porcentaje (o fecuencia relativa).
 +  - Se dibujan los mapas usando QGIS o R (se usó la librería tmap de R)
 +
  
 ===== Resultado ===== ===== Resultado =====
airbnb/pregunta/nube-palabras-anuncios.1523812328.txt.gz · Última modificación: 2018/04/15 17:12 por numeroteca