Veurem un programari que permet convertir fitxers PDF escanejats en documents amb text per posteriorment es pot fer una cerca al seu interior.

OCRmyPDF

Alguna vegada has intentat utilitzar Ctrl+F per escanejar un PDF i t’has adonat que només és una imatge? O us ha costat extreure text d’un document que, encara que tècnicament és digital, funcionalment és un munt de píxels?

Descobreix OCRmyPDF, una eina de codi obert que aplica una capa d’OCR (Reconeixement Òptic de Caràcters) als teus PDF, cosa que permet buscar-los, copiar-los i enganxar-los, i, en general, simplifica el seu ús. Amb 29 700 estrelles a GitHub i un complet conjunt de funcions, és una eina essencial per al postprocessament de PDF.

Quines tasques fa

OCRmyPDF processa fitxers PDF escanejats (o PDF basats en imatges) i:

Afegeix una capa de text oculta mitjançant l’OCR Tesseract, conservant el disseny original.
Genera fitxers PDF/A compatibles amb els estàndards per defecte (ideal per arxivar).
Opcionalment, corregeix, neteja imatges o gira pàgines, ja que els escanejats torts són comuns.
Compatibilitat multilingüe (més de 100 idiomes, amb possibilitat de combinar-los si cal).
És una eina de línia d’ordres, però també permet scripts per al processament massiu.

Més informació a:

Si has trobat aquest article del programari que permet treballar fitxers PDF escanejats per poder posteriorment fer una cerca d’informació, hauries de visitar la nostra secció d’Ofimàtica amb tot tipus d’eines gratuïtes per a la teva feina.