Tabla de Contenidos
Cómo liberar datos: taller de web scraping
Esta es la página de documentación del taller “Cómo liberar datos: taller de scrapping” en Hirikilabs. Donostia/ San Sebastian. 6 y 7 de febrero de 2018. Más información.
Proyectos desarrollados en el taller
Estos son los proyectos desarrollados durante el segundo día del taller:
Cosas a preparar al principio del taller
Descargarse el repositorio de ejercicios: scrapers para los ejercicios prácticos
Descargarse la presentación Presentación
Instalación de Python
Si tienes la versión 2.7 también te vale.
Linux
- Abre una terminal
- Comprueba si ya tienes instalado python tecleando: python3 –version
- Si no lo tienes instalado o la versión es anterior a la 3.5 teclea: sudo apt-get install python3.5
- Si tu distribución de Linux no dispone de la versión 3.5, instala la última versión disponible: sudo apt-get install python3
- Para hacer funcionar Python escribe “python” en la terminal.
Windows
- Descarga python pinchando en el siguiente enlace: https://www.python.org/ftp/python/3.6.4/python-3.6.4-amd64.exe
- Ejecuta el archivo descargado y sigue las instrucciones.
- Si te da error, intenta seguir este tutorial: https://www.quora.com/How-do-I-install-Python-in-Windows-8-1
Una vez tienes Python y pip instalados tienes que instalar las librerías:
Windows Vista
Para que python funcione en Windows tenemos que añadirlo al “path” de manera que al escribir “python” en la linea de comandos (CMD). Añadir a PATH significa decirle al ordenador dónde tiene que buscar el progama python.
Una vez abierto Python escribe “pip import” (confirmar).
Instalación de PIP. Añadir a PATH para que reconozca donde está PIP. Si no lo consigues Tienes que meter el full path:
C:\Python27\Scripts\pip install bs4
en vez de
pip install bs4
Windows 10
Para instalar un paquete:
py -m pip install bs4
Mac
- Descarga python pinchando en el siguiente enlace: https://www.python.org/ftp/python/3.6.4/python-3.6.4-macosx10.6.pkg
- Ejecuta el archivo descargado y sigue las instrucciones.
Instalar librerías de Python
Para instalar librerías o módulos de Python, que añaden funcionalidades adicionales, se puede user pip desde la línea de comandos del sistema operativo, no desde la consola de Python:
pip install nombre-modulo
Para buscar paquetes:
pip search nombre
Para el taller es necesario instalar:
- Urllib: Hace peticiones HTTP
- BeautifulSoup: Interpretar respuestas HTTP
- Json: Interpreta documentos (y respuestas) JSON
Es aconsejable instalar además:
- Selenium: Controlar un navegador web
- Scrapy: Framework preparado para scrapers
Opcional
Instalar Postman