Evaluar Modelos RAG con Amazon Bedrock: Disponibilidad General Ahora

Elena Digital López

Las organizaciones que desarrollan aplicaciones basadas en inteligencia artificial generativa están cada vez más interesadas en evaluar el rendimiento y la fiabilidad de sus sistemas. En el marco de la conferencia AWS re:Invent 2024, se presentaron en fase de prueba pública las capacidades de evaluación de modelos de lenguaje y generación aumentada por recuperación (RAG). Estas herramientas estaban siendo utilizadas por los clientes para analizar sus modelos base y aplicaciones de inteligencia artificial generativa. No obstante, se señaló la necesidad de una mayor flexibilidad más allá de los modelos y bases de conocimiento de Amazon Bedrock.

En respuesta a esta demanda, Amazon ha anunciado la disponibilidad general de las funciones de evaluación en Amazon Bedrock Evaluations, con mejoras sustanciales que las hacen más adaptables a cualquier entorno. Entre las innovaciones introducidas destaca la funcionalidad «bring your own inference responses» (BYOI), que permite evaluar sistemas RAG y modelos, sin importar si se ejecutan en Amazon Bedrock, otros proveedores de nube o localmente, siempre y cuando se proporcionen los datos de evaluación en el formato adecuado.

Además, se han añadido nuevas métricas de citación al robusto conjunto de evaluaciones de RAG, como precisión y cobertura de citación. Estas métricas están diseñadas para ayudar a evaluar con mayor precisión cómo un sistema RAG utiliza la información recuperada, proporcionando un análisis más detallado sobre la exactitud de las citaciones realizadas por el sistema.

Las características mejoradas permiten a los equipos de trabajo optimizar el rendimiento y asegurar la calidad de sus soluciones de inteligencia artificial generativa, ya sea utilizando la plataforma de Amazon Bedrock o diferentes entornos. Las capacidades de evaluación ahora permiten evaluar salidas de sistemas RAG alojados en cualquier ubicación, usando el entorno de evaluación de Amazon Bedrock. Con la funcionalidad de BYOI, es posible analizar los resultados de recuperación y generación desde diversas fuentes, incluyendo modelos base de otros proveedores y sistemas RAG personalizados.

Asimismo, el formato necesario para la evaluación ha sido actualizado para incluir identificadores de base de conocimiento y campos de metadatos adicionales. La inclusión de métricas de citación proporciona un análisis exhaustivo sobre la precisión de las citaciones, colaborando en la identificación de casos en los que se pueda estar citando información innecesaria o irrelevante.

Con estas mejoras en la evaluación, se facilita la comparación entre diferentes implementaciones, promoviendo decisiones informadas basadas en datos para mejorar el despliegue de las soluciones de inteligencia artificial. Las empresas ahora tienen la posibilidad de implementar flujos de trabajo de evaluación de manera regular, con el objetivo de mejorar continuamente sus modelos y sistemas RAG, asegurando así la entrega de resultados de alta calidad para casos de uso específicos.

Scroll al inicio