Herramientas de usuario

Herramientas del sitio


taller-web-scraping-hirikilabs:descarga_sigpac_navarra

Diferencias

Muestra las diferencias entre dos versiones de la página.

Enlace a la vista de comparación

Ambos lados, revisión anteriorRevisión previa
Próxima revisión
Revisión previa
taller-web-scraping-hirikilabs:descarga_sigpac_navarra [2018/02/07 17:56] ayestataller-web-scraping-hirikilabs:descarga_sigpac_navarra [2018/02/07 19:56] (actual) ayesta
Línea 1: Línea 1:
-Descarga de ficheros municipales del SIGPAC de Navarra.+====== Descarga de ficheros municipales del SIGPAC de Navarra ======
  
-1.- Comprobar en la página web [http://sigpac.navarra.es/descargas/] la estructura de la URL de descarga.+  - Comprobar en la página web [http://sigpac.navarra.es/descargas/] la estructura de la URL de descarga. 
 +  - Descargar los códigos de los municipios de Navarra (códigos INE). Se pueden descargar desde la propia web del INE (Instituto Nacional de Estadística) [http://www.ine.es/daco/daco42/codmun/codmun17/17codmunmapa.htm ] 
 +  - Crear un Array con todos códigos de municipio, para así iterar y poder crear la URL de cada municipio. 
 +  - Crear un bucle que crea una URL completa de cada código de municipio, recorriendo el Array creado en el paso 3. El bucle irá desde 0 a la longitud del Array-1. 
 +  - Añadir el paquete wget a python para poder descargar directamente los ficheros .zip 
 +  - Añadir el paquete zipfile para poder trabajar con los archivos .zip 
 +  - Crear un archivo .zip e ir añadiendo los ficheros descargados. 
 +  - Borrar los archivos descargados (importando el paquete os)
  
-2.- Descargar los códigos de los municipios de Navarra (código INE). Se pueden descargar desde la propia web del INE (Instituto Nacional de Estadística[http://www.ine.es/daco/daco42/codmun/codmun17/17codmunmapa.htm ]+Autores: Marisa (mmansorena@gmail.com) eta Mikel (m.ayesta@gislan.eus) 
 +<code> 
 +import csv  
 +import urllib2  
 +import random 
 +from bs4 import BeautifulSoup 
 +import wget #paquete para poder descargar directamenete los ficheros 
 +import zipfile #paquete para trabajar con *.zip 
 +import os #paquete para poder borrar los ficheros descargados 
 + 
 +#creamos el array 
 + 
 +lista_cod_muni= [ 
 +        '001', 
 +        '002', 
 +        '003', 
 +        '004', 
 +        '005', 
 +        '006', 
 +        '007', 
 +        '008', 
 +        '009', 
 +        '010', 
 +        '011', 
 +        '012', 
 +        '013', 
 +        '014', 
 +        '015', 
 +        '016', 
 +        '017', 
 +        '018', 
 +        '019', 
 +        '020', 
 +        '021', 
 +        '022', 
 +        '023', 
 +        '024', 
 +        '025', 
 +        '026', 
 +        '027', 
 +        '028', 
 +        '029', 
 +        '030', 
 +        '031', 
 +        '032', 
 +        '033', 
 +        '034', 
 +        '035', 
 +        '036', 
 +        '037', 
 +        '038', 
 +        '039', 
 +        '040', 
 +        '041', 
 +        '042', 
 +        '043', 
 +        '044', 
 +        '045', 
 +        '046', 
 +        '047', 
 +        '048', 
 +        '049', 
 +        '050', 
 +        '051', 
 +        '052', 
 +        '053', 
 +        '054', 
 +        '055', 
 +        '056', 
 +        '057', 
 +        '058', 
 +        '059', 
 +        '060', 
 +        '061', 
 +        '062', 
 +        '063', 
 +        '064', 
 +        '065', 
 +        '066', 
 +        '067', 
 +        '068', 
 +        '069', 
 +        '070', 
 +        '071', 
 +        '072', 
 +        '073', 
 +        '074', 
 +        '075', 
 +        '076', 
 +        '077', 
 +        '078', 
 +        '079', 
 +        '080', 
 +        '081', 
 +        '082', 
 +        '083', 
 +        '084', 
 +        '085', 
 +        '086', 
 +        '087', 
 +        '088', 
 +        '089', 
 +        '090', 
 +        '091', 
 +        '092', 
 +        '093', 
 +        '094', 
 +        '095', 
 +        '096', 
 +        '097', 
 +        '098', 
 +        '099', 
 +        '100', 
 +        '101', 
 +        '102', 
 +        '103', 
 +        '104', 
 +        '105', 
 +        '106', 
 +        '107', 
 +        '108', 
 +        '109', 
 +        '110', 
 +        '111', 
 +        '112', 
 +        '113', 
 +        '114', 
 +        '115', 
 +        '116', 
 +        '117', 
 +        '118', 
 +        '119', 
 +        '120', 
 +        '121', 
 +        '122', 
 +        '123', 
 +        '124', 
 +        '125', 
 +        '126', 
 +        '127', 
 +        '128', 
 +        '129', 
 +        '130', 
 +        '131', 
 +        '132', 
 +        '133', 
 +        '134', 
 +        '135', 
 +        '136', 
 +        '137', 
 +        '138', 
 +        '139', 
 +        '140', 
 +        '141', 
 +        '142', 
 +        '143', 
 +        '144', 
 +        '145', 
 +        '146', 
 +        '147', 
 +        '148', 
 +        '149', 
 +        '150', 
 +        '151', 
 +        '152', 
 +        '153', 
 +        '154', 
 +        '155', 
 +        '156', 
 +        '157', 
 +        '158', 
 +        '159', 
 +        '160', 
 +        '161', 
 +        '162', 
 +        '163', 
 +        '164', 
 +        '165', 
 +        '166', 
 +        '167', 
 +        '168', 
 +        '169', 
 +        '170', 
 +        '171', 
 +        '172', 
 +        '173', 
 +        '174', 
 +        '175', 
 +        '176', 
 +        '177', 
 +        '178', 
 +        '179', 
 +        '180', 
 +        '181', 
 +        '182', 
 +        '183', 
 +        '184', 
 +        '185', 
 +        '186', 
 +        '187', 
 +        '188', 
 +        '189', 
 +        '190', 
 +        '191', 
 +        '192', 
 +        '193', 
 +        '194', 
 +        '195', 
 +        '196', 
 +        '197', 
 +        '198', 
 +        '199', 
 +        '200', 
 +        '201', 
 +        '202', 
 +        '203', 
 +        '204', 
 +        '205', 
 +        '206', 
 +        '207', 
 +        '208', 
 +        '209', 
 +        '210', 
 +        '211', 
 +        '212', 
 +        '213', 
 +        '214', 
 +        '215', 
 +        '216', 
 +        '217', 
 +        '219', 
 +        '220', 
 +        '221', 
 +        '222', 
 +        '223', 
 +        '224', 
 +        '225', 
 +        '226', 
 +        '227', 
 +        '228', 
 +        '229', 
 +        '230', 
 +        '231', 
 +        '232', 
 +        '233', 
 +        '234', 
 +        '235', 
 +        '236', 
 +        '237', 
 +        '238', 
 +        '239', 
 +        '240', 
 +        '241', 
 +        '242', 
 +        '243', 
 +        '244', 
 +        '245', 
 +        '246', 
 +        '247', 
 +        '248', 
 +        '249', 
 +        '250', 
 +        '251', 
 +        '252', 
 +        '253', 
 +        '254', 
 +        '255', 
 +        '256', 
 +        '257', 
 +        '258', 
 +        '259', 
 +        '260', 
 +        '261', 
 +        '262', 
 +        '263', 
 +        '264', 
 +        '265', 
 +        '901', 
 +        '902', 
 +        '903', 
 +        '904', 
 +        '905', 
 +        '906', 
 +        '907', 
 +        '908' 
 +        ] 
 +archivo_zip = zipfile.ZipFile('sigpac_navarra.zip', 'w'#creamos y abrimos el archivo *.zip 
 +# crear el bucle desde 0 a la longitud de la lista -1 
 +for i in range(0,len(lista_cod_muni)-1): 
 + 
 + 
 +        url = 'http://sigpac.navarra.es/descargas/municipios/SGP2018_Mun'+str(lista_cod_muni[i])+'.zip' #crear la url, introduciendo el valor del elemento de la lista 
 +        wget.download(url) #descaragar la url 
 +        archivo_zip.write('SGP2018_Mun'+str(lista_cod_muni[i])+'.zip') #anadimos el fichero descargado a sigpac_navarra.zip 
 +        os.remove('SGP2018_Mun'+str(lista_cod_muni[i])+'.zip') #borramos el archivo descargado para que no ocupe sitio 
 +         
 +        break #acabamos el bucle a la primera para las pruebas 
 +archivo_zip.close() #cerramos el archivo sigpac_navarra.zip        
 +</code>        
  
  
taller-web-scraping-hirikilabs/descarga_sigpac_navarra.1518022606.txt.gz · Última modificación: 2018/02/07 17:56 por ayesta