Las organizaciones que trabajan en el desarrollo y despliegue de aplicaciones de inteligencia artificial enfrentan un creciente desafío a medida que la complejidad y aceptación de estas tecnologías avanzan. En particular, los sistemas que emplean modelos de lenguaje de gran tamaño junto con Generación Aumentada por Recuperación (RAG) necesitan mecanismos efectivos para evaluar sus resultados de manera consistente.
Los métodos tradicionales de evaluación de inteligencia artificial presentan limitaciones significativas. La evaluación humana, aunque detallada, implica costes elevados y lentitud al intentar escalar. En contraste, las métricas automatizadas ofrecen rapidez y menor coste, pero sólo cuantifican la corrección de las respuestas, sin capturar dimensiones más amplias ni ofrecer explicaciones sobre posibles errores. Estos métodos automatizados, además, requieren típicamente datos objetivos de referencia, complicados de obtener en aplicaciones de generación abierta donde una única respuesta correcta puede no ser posible. Métricas como ROUGE y F1 pueden resultar engañosas al centrarse en similitudes lingüísticas superficiales, que no reflejan el significado real de las respuestas.
Para superar estos obstáculos, Amazon Bedrock ha introducido dos innovaciones: la funcionalidad denominada «LLM-as-a-judge» (LLMaaJ) y una herramienta de evaluación RAG para sus Bases de Conocimiento. Ambas utilizan la tecnología de modelos de lenguaje de gran tamaño como jueces, adaptándose dependiendo de si se evalúa un modelo o una aplicación RAG. Estas capacidades permiten a las organizaciones evaluar de manera eficiente y en diversas dimensiones el rendimiento de sus aplicaciones, superando las limitaciones de los métodos tradicionales.
Las nuevas características de evaluación de Amazon Bedrock permiten evaluar salidas de modelos de IA en diferentes tareas y contextos, así como evaluar tanto la calidad de recuperación como de generación de los sistemas RAG. Gracias a estas herramientas, las evaluaciones pueden escalarse a gran número de respuestas sin sacrificar la calidad. Además, estas funcionalidades se integran de manera fluida en el ciclo de desarrollo de inteligencia artificial, fortaleciendo las prácticas responsables y basadas en datos en la selección de modelos y el despliegue de aplicaciones.
La evaluación RAG con las Bases de Conocimiento de Amazon Bedrock facilita a las organizaciones una guía detallada para configurar estas funcionalidades, explicando los matices a considerar en la evaluación de prompts y respuestas, ofreciendo, además, mejores prácticas para el proceso. Esta iniciativa busca simplificar la búsqueda de calidad en la inteligencia artificial, promoviendo el desarrollo eficiente y seguro de aplicaciones innovadoras.