====== Cómo liberar datos: taller de web scraping ====== Esta es la página de documentación del taller "Cómo liberar datos: taller de scrapping" en Hirikilabs. Donostia/ San Sebastian. 6 y 7 de febrero de 2018. [[https://montera34.com/project/liberar-datos-scraping-hirikilabs/|Más información]]. ===== Proyectos desarrollados en el taller ===== Estos son los proyectos desarrollados durante el segundo día del taller: * [[taller-web-scraping-hirikilabs:meneame-titulares|Extracción de títulos, menéames (votos) y clicks de meneame.net]]. * [[taller-web-scraping-hirikilabs:descarga_sigpac_navarra|Descarga de los datos del SIGPAC de Navarra]] * [[taller-web-scraping-hirikilabs:jakdojade|Tiempos de recorridos en la web Jak Dojade]] * [[taller-web-scraping-hirikilabs:arte|Obras Museo del Prado]] * [[taller-web-scraping-hirikilabs:coches|Descarga de ofertas de coches.net]] * [[taller-web-scraping-hirikilabs:levantar-navegador-selenium|Empezar a trabajar con Selenium]] * [[taller-web-scraping-hirikilabs:napartheid|Descarga de imágenes del fanzine Napartheid]] ===== Cosas a preparar al principio del taller ===== Descargarse el repositorio de ejercicios: [[https://github.com/Saigesp/scraping-workshop|scrapers para los ejercicios prácticos]] Descargarse la presentación [[https://docs.google.com/presentation/d/1gXLs23gFgwJYGURy6HFYREhu5Mgh9JeOGX_cE3oGCQU/edit?usp=sharing|Presentación]] ==== Instalación de Python ==== Si tienes la versión 2.7 también te vale. === Linux === - Abre una terminal - Comprueba si ya tienes instalado python tecleando: python3 --version - Si no lo tienes instalado o la versión es anterior a la 3.5 teclea: sudo apt-get install python3.5 - Si tu distribución de Linux no dispone de la versión 3.5, instala la última versión disponible: sudo apt-get install python3 - Para hacer funcionar Python escribe "python" en la terminal. === Windows === - Descarga python pinchando en el siguiente enlace: https://www.python.org/ftp/python/3.6.4/python-3.6.4-amd64.exe - Ejecuta el archivo descargado y sigue las instrucciones. - Si te da error, intenta seguir este tutorial: https://www.quora.com/How-do-I-install-Python-in-Windows-8-1 - Instalar pip: https://stackoverflow.com/questions/4750806/how-do-i-install-pip-on-windows#12476379 Una vez tienes Python y pip instalados tienes que instalar las librerías: == Windows Vista == Para que python funcione en Windows tenemos que añadirlo al "path" de manera que al escribir "python" en la linea de comandos (CMD). Añadir a PATH significa decirle al ordenador dónde tiene que buscar el progama python. Una vez abierto Python escribe "pip import" (confirmar). Instalación de PIP. Añadir a PATH para que reconozca donde está PIP. Si no lo consigues Tienes que meter el full path: C:\Python27\Scripts\pip install bs4 en vez de pip install bs4 == Windows 10 == Para instalar un paquete: py -m pip install bs4 === Mac === - Descarga python pinchando en el siguiente enlace: https://www.python.org/ftp/python/3.6.4/python-3.6.4-macosx10.6.pkg - Ejecuta el archivo descargado y sigue las instrucciones. ==== Instalar librerías de Python ==== Para instalar librerías o módulos de Python, que añaden funcionalidades adicionales, se puede user pip desde la línea de comandos del sistema operativo, no desde la consola de Python: pip install nombre-modulo Para buscar paquetes: pip search nombre Para el taller es necesario instalar: * Urllib: Hace peticiones HTTP * BeautifulSoup: Interpretar respuestas HTTP * Json: Interpreta documentos (y respuestas) JSON Es aconsejable instalar además: * Selenium: Controlar un navegador web * Scrapy: Framework preparado para scrapers ==== Opcional ==== Instalar Postman