La adopción de modelos de lenguaje de gran escala ha revolucionado la forma en que las personas interactúan con la tecnología. Sin embargo, implementar estos modelos a gran escala implica desafíos significativos, especialmente durante eventos de alta demanda como el Amazon Prime Day. Rufus, el asistente de compras impulsado por inteligencia artificial de Amazon, debe lidiar con una inmensa carga de trabajo y cumplir con estrictas expectativas de latencia y rendimiento.
Diseñado para facilitar la experiencia de compra, Rufus ayuda a los consumidores a tomar decisiones informadas respondiendo a consultas sobre productos. Para ofrecer este servicio eficiente, Rufus se basa en un modelo LLM para la generación de respuestas y en un modelo de planificación de consultas que optimiza la clasificación de preguntas. La generación de texto solo comienza después de que el modelo de planificación completa su tarea, lo que hace crucial la eficiencia del sistema.
Ante el próximo Prime Day, Rufus se enfrentó al desafío de gestionar millones de consultas por minuto y generar miles de millones de tokens en tiempo real, manteniendo un tiempo de respuesta de 300 ms. Para lograr esto, fue necesario replantearse cómo implementar los LLMs a gran escala, superando los cuellos de botella en costo y rendimiento.
La técnica de decodificación paralela fue clave para este éxito. Al permitir que Rufus genere múltiples tokens simultáneamente, se eliminaron las ineficiencias del enfoque secuencial. Además, el uso de chips de inteligencia artificial de AWS duplicó la velocidad de generación de texto y redujo en un 50% los costos de inferencia.
Los resultados fueron sorprendentes: Rufus mostró una rápida capacidad de respuesta que mejoró significativamente la experiencia del cliente. La sinergia entre la decodificación paralela y las soluciones de AWS facilitó el manejo del tráfico alto sin sacrificar la calidad.
La optimización del modelo y la implementación de soluciones avanzadas demuestran el potencial de la inteligencia artificial para crear experiencias de compra más fluidas y eficientes. Con la integración del marco Neuronx-Distributed Inference y los chips de AWS, se vislumbra un futuro prometedor para la escalabilidad de los LLMs, abriendo nuevas oportunidades en aplicaciones futuras de inteligencia artificial.