Limitaciones de los agentes de IA en la automatización

Elena Digital López

Los Modelos de Lenguaje Grande (LLMs, por sus siglas en inglés) han demostrado capacidades formidables en diversas métricas, exhibiendo desde la resolución de problemas matemáticos avanzados hasta una comprensión profunda del lenguaje natural. No obstante, estos mismos modelos revelan grandes carencias al enfrentarse a EnigmaEval, un conjunto de pruebas diseñado para evaluar habilidades de razonamiento espacial y resolución de acertijos. Esta deficiencia significativa destaca las limitaciones existentes de la inteligencia artificial y plantea interrogantes importantes sobre cómo mejorar estos modelos, especialmente para su aplicación en sectores empresariales, de ingeniería y robótica.

En comparación con su notable desempeño en tareas matemáticas, los LLMs presentan un déficit considerable en habilidades de razonamiento espacial. Aunque son eficaces en el razonamiento abstracto y cálculos numéricos, su especialización en el procesamiento de texto no se traduce en una capacidad adecuada para resolver acertijos espaciales. Esto podría tener repercusiones significativas en la automatización impulsada por IA en diversos campos.

Las dificultades que enfrentan los LLMs tienen múltiples causas. Principalmente, han sido entrenados en gran medida con datos textuales, optimizándose para identificar patrones lingüísticos y estadísticos. Las tareas de razonamiento espacial, que a menudo implican manipulación de objetos tridimensionales o comprensión de geometría visual, no están bien representadas en los corpora textuales. Como resultado, los modelos carecen de la «estructura visual» que los humanos adquieren naturalmente a través de la interacción física con el entorno. Además, los LLMs dependen por completo de descripciones textuales, lo que limita su capacidad para formar modelos mentales necesarios para el razonamiento espacial.

Los modelos LLMs suelen fallar en comprender relaciones geométricas y leyes físicas, lo que dificulta su capacidad para simular transformaciones en el espacio tridimensional. Puede que interpreten descripciones textuales de un problema, pero la falta de una memoria muscular espacial lleva a errores en sus respuestas. Asimismo, las arquitecturas actuales, como los Transformadores, son eficientes en transformaciones secuenciales de texto, pero no están diseñadas para la manipulación espacial. A pesar de que algunas arquitecturas han comenzado a incorporar módulos para el razonamiento espacial, los LLMs convencionales todavía carecen de subcomponentes especializados en esta área.

La limitada capacidad para el razonamiento espacial puede tener serias implicaciones para los negocios. Las tareas empresariales que requieren comprensión espacial pueden verse afectadas si se basan exclusivamente en los LLMs tradicionales. Ejemplos de esto incluyen la depuración de problemas en Git—donde la visualización de estructuras complejas es crucial—y el análisis de datos y visualización, donde los modelos usualmente tienen problemas para interpretar gráficos y mapas de calor. Asimismo, tareas en manufactura y robótica requieren de capacidades de cognición espacial que los LLMs actuales no poseen, mientras que el mapeo y la navegación en vehículos autónomos también representan un desafío significativo.

Un gran porcentaje del trabajo en ingeniería y negocios involucra razonamiento espacial, lo que resalta la necesidad de mejorar estas capacidades en los LLMs para desempeñarse eficazmente en funciones automatizadas y la resolución de problemas del mundo real.

Para abordar esta limitación, se están contemplando diferentes soluciones. El aprendizaje multimodal, que podría fusionar LLMs basados en texto con modelos de visión y simulación tridimensional, es una opción prometedora. Una arquitectura de mezcla de expertos (MoE) permitiría que diferentes «expertos» se ocupen de modalidades específicas, optimizando el rendimiento en tareas de razonamiento espacial. Además, el aprendizaje por refuerzo podría permitir que los agentes de IA aprendan a través de interacciones en entornos simulados en 3D, desarrollando un sentido más embebido de cómo los objetos se mueven e interactúan. También, la incorporación de humanos en el ciclo de aprendizaje ayudaría a perfeccionar la comprensión de los modelos en tareas espaciales, combinando la intuición humana con la potencia de procesamiento de un LLM.

El deficiente rendimiento de los LLMs en EnigmaEval subraya una limitación central en los modelos de IA actuales, y mejorar su comprensión espacial es vital para su evolución. Con la combinación de arquitecturas especializadas, aprendizaje reforzado y colaboración humana, se puede abrir el camino para un avance significativo. Lograr modelos que puedan realmente percibir, manipular y razonar sobre el mundo físico transformará diversas industrias, desde la logística hasta la robótica, pasando por el diseño y el análisis de datos, dando inicio a una era de sistemas de IA más versátiles, fiables y cognitivamente flexibles.

Scroll al inicio