Herramientas de usuario

Herramientas del sitio


airbnb:recetas:ocr-vut-madrid
  1. Comvertir tif multipágina a pdf

convert -compress LZW vut-comunidad-madrid_RGEP11612-17.tif vut-comunidad-madrid_RGEP11612-17.pdf

  1. Eliminar las primeras y últimas páginas.

pdftk vut-comunidad-madrid_RGEP11612-17.pdf cat 1-endwest output vut-comunidad-madrid_RGEP11612-17-rotate.pdf

  1. Convertir pdf de vuelta a tiff multipágina

convert -density 150 vut-comunidad-madrid_RGEP11612-17-rotate.pdf -depth 8 vut-comunidad-madrid_RGEP11612-17-rotate.tiff

  1. Volver a convertirlo quitándole el alpha (transparencia)

convert vut-comunidad-madrid_RGEP11612-17-rotate.tiff -fill white -draw 'rectangle 10,10 20,20' -background white -flatten +matte vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff

  1. Hacer el OCR con tesserac

tesseract vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff vut-comunidad-madrid_RGEP11612-17.txt

Este método no da resultado, así que pruebo:

  1. Abro con gimp solamente una página.
  2. La giro para que esté totalmente horizontal y recorto cabecera.
  3. La salvo como .png vut-comunidad-madrid_RGEP11612-17-rotate_2.png
  4. Y hago el OCR con tesserac:

tesseract vut-comunidad-madrid_RGEP11612-17-rotate_2.png out

  1. Funciona, pero al no reconocer las columnas apila los resultados unos encima de otro.

Resultado resumido: VT 2717

VT 2179 VT 1460 VT 1808 VT 3059 VT 3052 VT 2420 VT 33815

VIVIENDA USO TUR. VIViENDA uso TUR. VIVIENDA USO TUR. VIVIENDA USO TUR. VIVIENDA USO TUR.

AVDA. DE LA ERMITAZ CALLE BEGONIA 32A CAMINO NUEVO 11 CAMINO NUEVO 11 1“ D MARQUESA VIUDA DE ALDAMA, 48, 2° E MARQUESA VIUDA DE ALDAMA. 48, 2°G° SAN ROQUE 40

airbnb/recetas/ocr-vut-madrid.txt · Última modificación: 2018/04/21 08:59 por numeroteca