taller-web-scraping-hirikilabs:descarga_sigpac_navarra
Diferencias
Muestra las diferencias entre dos versiones de la página.
Ambos lados, revisión anteriorRevisión previaPróxima revisión | Revisión previa | ||
taller-web-scraping-hirikilabs:descarga_sigpac_navarra [2018/02/07 18:41] – ayesta | taller-web-scraping-hirikilabs:descarga_sigpac_navarra [2018/02/07 19:56] (actual) – ayesta | ||
---|---|---|---|
Línea 6: | Línea 6: | ||
- Crear un bucle que crea una URL completa de cada código de municipio, recorriendo el Array creado en el paso 3. El bucle irá desde 0 a la longitud del Array-1. | - Crear un bucle que crea una URL completa de cada código de municipio, recorriendo el Array creado en el paso 3. El bucle irá desde 0 a la longitud del Array-1. | ||
- Añadir el paquete wget a python para poder descargar directamente los ficheros .zip | - Añadir el paquete wget a python para poder descargar directamente los ficheros .zip | ||
+ | - Añadir el paquete zipfile para poder trabajar con los archivos .zip | ||
+ | - Crear un archivo .zip e ir añadiendo los ficheros descargados. | ||
+ | - Borrar los archivos descargados (importando el paquete os) | ||
+ | |||
+ | Autores: Marisa (mmansorena@gmail.com) eta Mikel (m.ayesta@gislan.eus) | ||
< | < | ||
import csv | import csv | ||
Línea 12: | Línea 17: | ||
from bs4 import BeautifulSoup | from bs4 import BeautifulSoup | ||
import wget #paquete para poder descargar directamenete los ficheros | import wget #paquete para poder descargar directamenete los ficheros | ||
+ | import zipfile #paquete para trabajar con *.zip | ||
+ | import os #paquete para poder borrar los ficheros descargados | ||
#creamos el array | #creamos el array | ||
Línea 289: | Línea 296: | ||
' | ' | ||
] | ] | ||
+ | archivo_zip = zipfile.ZipFile(' | ||
# crear el bucle desde 0 a la longitud de la lista -1 | # crear el bucle desde 0 a la longitud de la lista -1 | ||
for i in range(0, | for i in range(0, | ||
+ | |||
url = ' | url = ' | ||
wget.download(url) #descaragar la url | wget.download(url) #descaragar la url | ||
- | break #acabamos el bucle a la primera para las pruebas | + | |
+ | os.remove(' | ||
+ | |||
+ | | ||
+ | archivo_zip.close() #cerramos el archivo sigpac_navarra.zip | ||
</ | </ | ||
taller-web-scraping-hirikilabs/descarga_sigpac_navarra.1518025284.txt.gz · Última modificación: 2018/02/07 18:41 por ayesta