taller-web-scraping-hirikilabs:descarga_sigpac_navarra
Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
| taller-web-scraping-hirikilabs:descarga_sigpac_navarra [2018/02/07 18:41] – ayesta | taller-web-scraping-hirikilabs:descarga_sigpac_navarra [2018/02/07 19:56] (actual) – ayesta | ||
|---|---|---|---|
| Línea 6: | Línea 6: | ||
| - Crear un bucle que crea una URL completa de cada código de municipio, recorriendo el Array creado en el paso 3. El bucle irá desde 0 a la longitud del Array-1. | - Crear un bucle que crea una URL completa de cada código de municipio, recorriendo el Array creado en el paso 3. El bucle irá desde 0 a la longitud del Array-1. | ||
| - Añadir el paquete wget a python para poder descargar directamente los ficheros .zip | - Añadir el paquete wget a python para poder descargar directamente los ficheros .zip | ||
| + | - Añadir el paquete zipfile para poder trabajar con los archivos .zip | ||
| + | - Crear un archivo .zip e ir añadiendo los ficheros descargados. | ||
| + | - Borrar los archivos descargados (importando el paquete os) | ||
| + | |||
| + | Autores: Marisa (mmansorena@gmail.com) eta Mikel (m.ayesta@gislan.eus) | ||
| < | < | ||
| import csv | import csv | ||
| Línea 12: | Línea 17: | ||
| from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
| import wget #paquete para poder descargar directamenete los ficheros | import wget #paquete para poder descargar directamenete los ficheros | ||
| + | import zipfile #paquete para trabajar con *.zip | ||
| + | import os #paquete para poder borrar los ficheros descargados | ||
| #creamos el array | #creamos el array | ||
| Línea 289: | Línea 296: | ||
| ' | ' | ||
| ] | ] | ||
| + | archivo_zip = zipfile.ZipFile(' | ||
| # crear el bucle desde 0 a la longitud de la lista -1 | # crear el bucle desde 0 a la longitud de la lista -1 | ||
| for i in range(0, | for i in range(0, | ||
| + | |||
| url = ' | url = ' | ||
| wget.download(url) #descaragar la url | wget.download(url) #descaragar la url | ||
| - | break #acabamos el bucle a la primera para las pruebas | + | |
| + | os.remove(' | ||
| + | |||
| + | | ||
| + | archivo_zip.close() #cerramos el archivo sigpac_navarra.zip | ||
| </ | </ | ||
taller-web-scraping-hirikilabs/descarga_sigpac_navarra.1518025284.txt.gz · Última modificación: por ayesta