Herramientas de usuario

Herramientas del sitio


airbnb:recetas:ocr-vut-madrid

¡Esta es una revisión vieja del documento!


  1. Comvertir tif multipágina a pdf

convert -compress LZW vut-comunidad-madrid_RGEP11612-17.tif vut-comunidad-madrid_RGEP11612-17.pdf

  1. Eliminar las primeras y últimas páginas.

pdftk vut-comunidad-madrid_RGEP11612-17.pdf cat 1-endwest output vut-comunidad-madrid_RGEP11612-17-rotate.pdf

  1. Convertir pdf de vuelta a tiff multipágina

convert -density 150 vut-comunidad-madrid_RGEP11612-17-rotate.pdf -depth 8 vut-comunidad-madrid_RGEP11612-17-rotate.tiff

  1. Volver a convertirlo quitándole el alpha (transparencia)

convert vut-comunidad-madrid_RGEP11612-17-rotate.tiff -fill white -draw 'rectangle 10,10 20,20' -background white -flatten +matte vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff

  1. Hacer el OCR con tesserac

tesseract vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff vut-comunidad-madrid_RGEP11612-17.txt

Este método no da resultado, así que pruebo:

  1. Abro con gimp solamente una página.
  2. La giro para que esté totalmente horizontal y recorto cabecera.
  3. La salvo como .png vut-comunidad-madrid_RGEP11612-17-rotate_2.png
  4. Y hago el OCR con tesserac:

tesseract vut-comunidad-madrid_RGEP11612-17-rotate_2.png out

  1. Funciona, pero al no reconocer las columnas apila los resultados unos encima de otro.
airbnb/recetas/ocr-vut-madrid.1524051446.txt.gz · Última modificación: 2018/04/18 11:37 por numeroteca