Google ha anunciado que pronto empezará a indexar documentos escaneados en sus resultados de búsqueda, una caracterÃstica que requiere una inmensa cantidad de potencia de proceso y reconocimiento de imágenes avanzado. Y es que, al contrario que los documentos de texto, los documentos escaneados no contienen metadatos que ayuden a Google a identificar que es lo que tienen que indexar.
Google ha utilizado tecnologÃa de reconocimiento óptico de caracteres (OCR) para convertir las fotos de documentos en ficheros de texto digital, y asà poder indexarlos.
No es la primera vez que Google trata de indexar este tipo de archivos de imágenes pero no era capaz de reconocer el texto incluido en ellas y, en consecuencia, indexarlos. A partir de ahora ya si podrá incluir en sus búsquedas este tipo de documentos, lo que es una estupenda noticia para el mundo académico, usuario habitual de documentos escaneados. Ahora, cuando encuentres un documento escaneado podrás verlo en su formato original como PDF o convertido a fichero de texto en la opción de «Ver como HTML».
Aquà tienes un ejemplo (el primer resultado es un documento escaneado): [Steady success in a volatile world]
Sitio oficial |Â Google Blog