msgbartop
La Repubblica dei Webmaster Italiani
msgbarbottom

19 Dic 11 - Google distribuisce un OCR open source

Scritto da: Fabio Mele - Letto 3.056 Volte

E’ fresca la notizia che Google ha rilasciato in open source un motore di ricerca OCR (Optical Character Recognition), in ottica futura si tratta di un motore che potrebbe avere molte potenzialità in Google Books.

L’OCR è una tecnologia che dà la possibilità di riconoscere i caratteri dei documenti scannerizzati, fotografati o dei file PDF e trasformarli in dati editabili e, soprattutto per Google, ricercabili.

Il riconoscimento testi avviene tramite un programma di analisi visiva che legge il documento come un’immagine. L’immagine viene scansionata dal software che ne riconosce i caratteri, li confronta ad una serie di immagini-campione di altri caratteri e, associandoli, riesce a riconoscere per ogni segno la lettera corrispondente, trasformando il contenuto in dati.
Ecco perché questa tecnologia è stata applicata anche come motore di ricerca. La fase è sperimentale è non è dato da sapere se verrà implementata tra i normali strumenti disponibili direttamente su Google. Intanto, è possibile scaricare il motore dal sito sourceforge.net.

Il motore OCR è stato chiamato Tesseract e, in realtà, è stato sviluppato in origine da Hewlett Packard già tra il 1985 ed il 1995. Dimenticato per molto tempo, ora Google ne ha intravisto le potenzialità redistribuendolo in opensource su Sourceforge.

La ricerca nel campo OCR non finirà qui, Google sta infatti ricercando nuovi esperti nel settore da assumere dalle parti di Mountain View.

Leave a Comment