Online è presente un notevole numero di documenti convertiti in formato elettronico mediante uno scanner. Nonostante l’utilità di questi documenti sia rappresentata dai testi che contengono, essi vengono normalmente interpretati come immagini, rendendo quindi impossibile indicizzare il loro contenuto ai fini di una ricerca.
Google ha però deciso di applicare la tecnologia OCR (Optical Character Recognition) per interpretare i testi nei documenti scannerizzati disponibili online in formato PDF.
Ecco alcuni esempi di questa applicazione (cliccando sul link “Versione HTML” è possibile vedere il testo elaborato da Google):
[repairing aluminum wiring] (primo risultato)
[spin lock performance] (primo risultato)
[Mumps and Severe Neutropenia] (terzo risultato)
[Steady success in a volatile world] (primo risultato)