Amazon ha dado a conocer que la función de «prompt caching» ya está disponible de manera general en su plataforma Amazon Bedrock, lo que promete mejorar significativamente la eficiencia en la generación de respuestas de modelos de lenguaje como Claude 3.5 Haiku y Claude 3.7 Sonnet. Con esta nueva capacidad, se logra reducir la latencia de respuesta en hasta un 85%, además de disminuir los costos operativos hasta en un 90% al hacer uso del almacenamiento en caché de «prompts» frecuentemente utilizados a lo largo de múltiples llamadas a la API.
El mecanismo de «prompt caching» permite a los usuarios identificar y marcar partes específicas de sus solicitudes, denominadas «prompt prefixes», para su almacenamiento en memoria caché. Cuando una solicitud incluye un «prompt prefix» que coincide con alguno ya almacenado, el modelo es capaz de procesar la información y guardar el estado interno relacionado. De este modo, en llamadas siguientes con un «prefix» coincidente, el modelo accede al contenido cacheado, evitando así la computación de los tokens de entrada, lo cual se traduce en tiempos de respuesta más rápidos y un uso de hardware más eficiente. Estos ahorros técnicos y de costos se regresan, en última instancia, a los usuarios.
Esta innovación de Amazon Bedrock optimiza particularmente la fase de procesamiento de tokens de entrada, crítica para el funcionamiento de modelos de lenguaje a gran escala. A través de puntos de control de caché, los desarrolladores pueden crear estructuras de «prompts» más efectivas y organizadas, aumentando la probabilidad de coincidencias en la memoria caché y, por ende, mejorando el rendimiento general.
La implementación de «prompt caching» es especialmente recomendable en trabajos que manejan «prompts» contextuales extensos y repetidos, tales como aplicaciones de asistencia por chat, asistentes de programación o flujos de trabajo donde la coherencia sistémica es esencial. Para obtener el máximo provecho de esta función, se sugiere estructurar el contenido de manera que las instrucciones estáticas y los ejemplos se sitúen al inicio, mientras que el contenido dinámico, como detalles específicos del usuario, se coloque al final de la solicitud.
El seguimiento y optimización de la eficiencia del uso de la memoria caché, así como la cuantificación de los ahorros de costos logrados, será más accesible a través de métricas de rendimiento que incluyen los conteos de tokens leídos y escritos, disponibles en la sección de respuesta API. Esto otorgará a los desarrolladores las herramientas para gestionar mejor su estrategia de caché y mejorar la capacidad de respuesta de sus aplicaciones.
Aunque el «prompt caching» aporta beneficios considerables, su efectividad se ve comprometida en contextos donde se emplean «prompts» extremadamente largos y dinámicos. En tales escenarios, los desarrolladores deberán revisar minuciosamente la estructura de sus «prompts» para garantizar el rendimiento óptimo.
Por último, esta función puede ser utilizada juntamente con la inferencia interregional de Amazon Bedrock, que optimiza la elección de la región de AWS más adecuada para las solicitudes, asegurando así una disponibilidad de recursos y modelos más eficiente durante períodos de gran demanda.