¡Esta es una revisión vieja del documento!
- Comvertir tif multipágina a pdf
convert -compress LZW vut-comunidad-madrid_RGEP11612-17.tif vut-comunidad-madrid_RGEP11612-17.pdf
- Eliminar las primeras y últimas páginas.
- Girar PDF 90º (fuente: https://makandracards.com/makandra/1487-rotate-a-pdf-under-ubuntu-linux):
pdftk vut-comunidad-madrid_RGEP11612-17.pdf cat 1-endwest output vut-comunidad-madrid_RGEP11612-17-rotate.pdf
- Convertir pdf de vuelta a tiff multipágina
convert -density 150 vut-comunidad-madrid_RGEP11612-17-rotate.pdf -depth 8 vut-comunidad-madrid_RGEP11612-17-rotate.tiff
- Volver a convertirlo quitándole el alpha (transparencia)
convert vut-comunidad-madrid_RGEP11612-17-rotate.tiff -fill white -draw 'rectangle 10,10 20,20' -background white -flatten +matte vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff
- Hacer el OCR con tesserac
tesseract vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff vut-comunidad-madrid_RGEP11612-17.txt
Este método no da resultado, así que pruebo:
- Abro con gimp solamente una página.
- La giro para que esté totalmente horizontal y recorto cabecera.
- La salvo como .png vut-comunidad-madrid_RGEP11612-17-rotate_2.png
- Y hago el OCR con tesserac:
tesseract vut-comunidad-madrid_RGEP11612-17-rotate_2.png out
- Funciona, pero al no reconocer las columnas apila los resultados unos encima de otro.