Un laboratorio nacional en Estados Unidos ha dado un paso innovador para mejorar el acceso y la gestión de sus archivos históricos. A pesar de retener un vasto almacén de conocimiento, las dificultades para localizar documentos han persistido debido a la falta de metadatos y un etiquetado inconsistente. Los métodos de búsqueda tradicionales basados en palabras clave han demostrado ser ineficaces, conllevando a revisiones manuales exhaustivas para extraer información valiosa.
Para abordar estos retos, el laboratorio ha implementado una avanzada plataforma de procesamiento documental potenciada por inteligencia artificial. Al integrar reconocimiento de entidades nombradas (NER) y modelos de lenguaje masivo en Amazon SageMaker, la solución automatiza el enriquecimiento de metadatos, la clasificación y la generación de resúmenes. Empleando el modelo Mixtral-8x7B para crear resúmenes y títulos, y un modelo NER basado en BERT para la extracción de metadatos estructurados, se optimiza la organización y recuperación de documentos digitalizados.
Diseñada con una arquitectura sin servidor optimizada para costos, la plataforma opera a través de endpoints dinámicos de SageMaker que proporcionan un uso eficiente de recursos y garantizan la escalabilidad. La integración de tecnologías de procesamiento de lenguaje natural (NLP) y modelos de lenguaje de gran escala (LLM) fortalece la precisión de los metadatos, permitiendo búsquedas más precisas y una gestión documental más eficiente. Esto no solo facilita la transformación digital, sino que también asegura una efectiva utilización de los datos archivados para investigaciones, formulación de políticas y retención del conocimiento institucional.
Denominada NER & LLM Gen AI Application, esta solución aprovecha los beneficios del NER y los LLM para automatizar el análisis masivo de documentos. Con un enfoque modular, cada componente aborda diferentes aspectos del procesamiento, desde resúmenes extractivos hasta la extracción de autores. El sistema se activa al detectar documentos en el bucket de extracciones, evitando operaciones redundantes mediante la creación necesaria de endpoints de modelo y procesamiento por lotes para maximizar la eficiencia.
Además de su rendimiento, esta innovadora solución destaca por su capacidad de procesar 100,000 documentos en 12 horas, subrayando su efectividad en costo y rendimiento. Implementando resúmenes extractivos como primer paso, se reduce la carga de trabajo en un 75-90%, lo que se traduce en un procesamiento más veloz y un menor costo operativo. Esta plataforma se alza como una respuesta robusta a las crecientes demandas de procesamiento documental eficiente en el ámbito de la investigación y la gestión del conocimiento.