Optimización De Modelos De Razonamiento Con Prompts En Amazon Bedrock

Elena Digital López

Los modelos de inteligencia artificial DeepSeek-R1 han sido recientemente incorporados al Amazon Bedrock Marketplace y al Amazon SageMaker JumpStart, destacándose por su sofisticado estilo de razonamiento. Estos modelos han demostrado un rendimiento sobresaliente en pruebas complejas como AIME-2024 y MATH-500, compitiendo eficazmente con modelos de última generación como Claude Sonnet 3.5 de Anthropic, GPT-4 y OpenAI O1, según los resultados compartidos por la empresa desarrolladora, DeepSeek.

Durante la fase de entrenamiento de estos modelos, se descubrió que el DeepSeek-R1-Zero mejora su capacidad para resolver problemas si se le concede más tiempo para reflexionar, incrementando así su eficacia. Sin embargo, un desafío notable ha sido la cantidad de «tokens de pensamiento» requeridos durante el tiempo de inferencia y el coste que implica generar estos tokens antes de proporcionar una respuesta definitiva.

La optimización de prompts en Amazon Bedrock ha emergido como una solución efectiva para mejorar el rendimiento de los modelos de razonamiento como DeepSeek-R1. Por ejemplo, al enfrentarse con problemas matemáticos sencillos, estos modelos, en ocasiones, no pueden completar su razonamiento antes de alcanzar el límite máximo de tokens, lo que les impide llegar a una respuesta final.

Aumentar el presupuesto de tokens de salida se ha demostrado útil, permitiendo al modelo extender su proceso de razonamiento antes de emitir una respuesta. Expandiendo el límite de tokens de 2,048 a 4,096, el modelo puede realizar un razonamiento más detallado, lo que se traduce en respuestas más precisas.

La técnica de optimización de prompts ha mostrado resultados prometedores al ser aplicada a desafíos como el «Último Examen de la Humanidad» (HLE), un conjunto de preguntas que requieren un conocimiento profundo y desafían respuestas simples obtenidas mediante búsquedas en internet. Tras aplicar esta técnica, se ha logrado reducir notablemente el número de tokens de pensamiento sin perder precisión. En un ejemplo, se logró una reducción del 35% en los tokens necesarios para comprender adecuadamente un problema físico, manteniendo la exactitud en la respuesta.

Además, al aplicar esta técnica a un conjunto de 400 preguntas del HLE, la precisión general aumentó del 8.75% al 11%, al mismo tiempo que se redujeron el tiempo y costo de procesamiento de las respuestas. Esto resalta la optimización de prompts como una herramienta valiosa para implementar modelos de razonamiento en entornos donde la precisión y los recursos computacionales son cruciales.

Este avance en la eficiencia y efectividad sugiere que, en el futuro, la optimización de prompts se convertirá en un componente esencial para las aplicaciones prácticas de la inteligencia artificial a medida que los modelos continúan evolucionando.

Scroll al inicio