Montera34

¡Esta es una revisión vieja del documento!

Comvertir tif multipágina a pdf

convert -compress LZW vut-comunidad-madrid_RGEP11612-17.tif vut-comunidad-madrid_RGEP11612-17.pdf

Eliminar las primeras y últimas páginas.
Girar PDF 90º (fuente: https://makandracards.com/makandra/1487-rotate-a-pdf-under-ubuntu-linux):

pdftk vut-comunidad-madrid_RGEP11612-17.pdf cat 1-endwest output vut-comunidad-madrid_RGEP11612-17-rotate.pdf

Convertir pdf de vuelta a tiff multipágina

convert -density 150 vut-comunidad-madrid_RGEP11612-17-rotate.pdf -depth 8 vut-comunidad-madrid_RGEP11612-17-rotate.tiff

Volver a convertirlo quitándole el alpha (transparencia)

convert vut-comunidad-madrid_RGEP11612-17-rotate.tiff -fill white -draw 'rectangle 10,10 20,20' -background white -flatten +matte vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff

Hacer el OCR con tesserac

tesseract vut-comunidad-madrid_RGEP11612-17-rotate-noalpha.tiff vut-comunidad-madrid_RGEP11612-17.txt

Este método no da resultado, así que pruebo:

Abro con gimp solamente una página.
La giro para que esté totalmente horizontal y recorto cabecera.
La salvo como .png vut-comunidad-madrid_RGEP11612-17-rotate_2.png
Y hago el OCR con tesserac:

tesseract vut-comunidad-madrid_RGEP11612-17-rotate_2.png out

Funciona, pero al no reconocer las columnas apila los resultados unos encima de otro.