Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs

Cómo liberar datos: taller de web scraping

Esta es la página de documentación del taller “Cómo liberar datos: taller de scrapping” en Hirikilabs. Donostia/ San Sebastian. 6 y 7 de febrero de 2018. Más información.

Proyectos desarrollados en el taller

Cosas a preparar al principio del taller

Descargarse el repositorio de ejercicios: scrapers para los ejercicios prácticos

Descargarse la presentación Presentación

Instalación de Python

Si tienes la versión 2.7 también te vale.

Linux

  1. Abre una terminal
  2. Comprueba si ya tienes instalado python tecleando: python3 –version
  3. Si no lo tienes instalado o la versión es anterior a la 3.5 teclea: sudo apt-get install python3.5
  4. Si tu distribución de Linux no dispone de la versión 3.5, instala la última versión disponible: sudo apt-get install python3
  5. Para hacer funcionar Python escribe “python” en la terminal.

Windows

  1. Descarga python pinchando en el siguiente enlace: https://www.python.org/ftp/python/3.6.4/python-3.6.4-amd64.exe
  2. Ejecuta el archivo descargado y sigue las instrucciones.
  3. Si te da error, intenta seguir este tutorial: https://www.quora.com/How-do-I-install-Python-in-Windows-8-1

Una vez tienes Python y pip instalados tienes que instalar las librerías:

Windows Vista

Para que python funcione en Windows tenemos que añadirlo al “path” de manera que al escribir “python” en la linea de comandos (CMD). Añadir a PATH significa decirle al ordenador dónde tiene que buscar el progama python.

Una vez abierto Python escribe “pip import” (confirmar).

Instalación de PIP. Añadir a PATH para que reconozca donde está PIP. Si no lo consigues Tienes que meter el full path:

C:\Python27\Scripts\pip install bs4

en vez de

pip install bs4

Windows 10

Para instalar un paquete:

py -m pip install bs4

Mac

  1. Descarga python pinchando en el siguiente enlace: https://www.python.org/ftp/python/3.6.4/python-3.6.4-macosx10.6.pkg
  2. Ejecuta el archivo descargado y sigue las instrucciones.

Instalar librerías de Python

Para instalar librerías o módulos de Python, que añaden funcionalidades adicionales, se puede user pip desde la línea de comandos del sistema operativo, no desde la consola de Python:

  pip install nombre-modulo

Para buscar paquetes:

  pip search nombre

Para el taller es necesario instalar:

  • Urllib: Hace peticiones HTTP
  • BeautifulSoup: Interpretar respuestas HTTP
  • Json: Interpreta documentos (y respuestas) JSON

Es aconsejable instalar además:

  • Selenium: Controlar un navegador web
  • Scrapy: Framework preparado para scrapers

Opcional

Instalar Postman

taller-web-scraping-hirikilabs.txt · Última modificación: 2018/02/07 20:13 por numeroteca