General
31/10/2008

Google indexa documentos escaneados

Por Fernando Tellado

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Google ha anunciado que pronto empezarÃ¡ a indexar documentos escaneados en sus resultados de bÃºsqueda, una caracterÃstica que requiere una inmensa cantidad de potencia de proceso y reconocimiento de imÃ¡genes avanzado. Y es que, al contrario que los documentos de texto, los documentos escaneados no contienen metadatos que ayuden a Google a identificar que es lo que tienen que indexar.

Google ha utilizado tecnologÃa de reconocimiento Ã³ptico de caracteres (OCR) para convertir las fotos de documentos en ficheros de texto digital, y asÃ poder indexarlos.

No es la primera vez que Google trata de indexar este tipo de archivos de imÃ¡genes pero no era capaz de reconocer el texto incluido en ellas y, en consecuencia, indexarlos. A partir de ahora ya si podrÃ¡ incluir en sus bÃºsquedas este tipo de documentos, lo que es una estupenda noticia para el mundo acadÃ©mico, usuario habitual de documentos escaneados. Ahora, cuando encuentres un documento escaneado podrÃ¡s verlo en su formato original como PDF o convertido a fichero de texto en la opciÃ³n de «Ver como HTML».

AquÃ tienes un ejemplo (el primer resultado es un documento escaneado): [Steady success in a volatile world]