PDF con OCR: come estrarre il testo

OCR deriva dalla parola Optical character recognition, ovvero il riconoscimento ottico dei caratteri e molto spesso se ne è sentito parlare. Ma se volessimo applicare questo riconoscimento anche all’interno di un file pdf?

La prima cosa da fare è quella di controllare se il file risulta essere protetto dalla protezione anti-copia. Per verificarlo è sufficiente aprire il file in questione e recarsi nelle Proprietà dal menu File. Se si legge Consenti accanto alle voci Copia contenuto e Stampa, significa che il file non ha alcuna protezione e dunque non dovrebbero esserci problemi nell’estrazione del testo dal file. Se non si riuscisse a copiare ed estrarre il testo dal PDF è altamente probabile che il documento in questione sia stato creato con delle semplici immagini acquisite da scanner.

Adesso, prima di passare alla fase di OCR, è necessario controllare che sia attivato lo strumento di selezione e per farlo basterà cliccare su un qualsiasi punto del vostro foglio pdf con il tasto destro. Una volta selezionato il testo basta cliccare CTRL+C per copiarlo.

Arrivati a questo punto possiamo vedere alcune alternative per effettuare l’OCR da PDF.

OCR con Office Lens

Office Lens, l’applicazione di Microsoft Office si rivela particolarmente utile per tutti coloro i quali si ritrovano spesso davanti a documenti cartacei e desiderano effettuarne l’OCR senza neppure ricorrere all’utilizzo di uno scanner.

Link per il download | Office Lens per Android
Link per il download | Office Lens per Apple

L’app di Office Lens si dimostra molto efficace e semplice da usare: è sufficiente puntare la fotocamera dello smartphone/tablet sul documento da acquisire. Dopo l’acquisizione, scegliendo di salvare il documento come PDF su Onedrive il suo contenuto verrà automaticamente sottoposto a OCR.

Per verificare che tutto sia andato a buon fine basterà aprire il file PDF in Office Online (previo login su OneDrive) e dunque appurare il fatto che ora sia possibile selezionare spezzoni di testo, copiarli attraverso il CTRL+C per poi incollarlo da qualsiasi altra parte senza alcun tipo di problema.

OCR integrato in Office Online

Se si ha già il documento PDF composto da sole immagini (e dunque non si deve digitalizzare come fatto in precedenza) è possibile caricarlo su OneDrive quindi trasformare il file in Word cliccando sul suo nome, scegliendo Modifica in Word.

Anche in questo caso la conversione verrà gestita da Microsoft in automatico ed una volta conclusa si potrà aprire il documento su Word Online ed utilizzare nuovamente la combinazione di tasti CTRL+C per copiare il testo.

OCR con PDF-XChange Viewer

Una soluzione alternativa a Office Online consiste nell’utilizzare il programma PDF-XChange Viewer. Questa applicazione ha implementato un modulo OCR abbastanza completo capace di effettuare il riconoscimento dei caratteri contenuti all’interno di un PDF rendendolo un testo estraibile.

La cosa che lo rende un validissimo ( e molto efficace) strumento è la possibilità di scaricare un dizionario italiano da inserire all’interno del programma. Va precisato, inoltre, che i file trattati con questo programma rimarranno tutti in locale e dunque non ci sarà alcun bisogno di appoggiarsi al cloud.

OCR con Microsoft OneNote

Anche il noto software di Microsoft, OneNote, permette di lanciare l’OCR sulle pagine precedentemente digitalizzate tramite il proprio smartphone. L’applicazione è disponibile negli store ai seguenti link:

Link per il download | OneNote per Android
Link per il download | OneNote per Apple

Il principio di funzionamento è praticamente identico a quello di OfficeLens, basterà infatti utilizzare la fotocamera del proprio smartphone/tablet per digitalizzare il documento per poi darlo in pasto al programma che, grazie al suo modulo OCR, renderà copiabile il testo permettendone l’estrazione.