A medida que las organizaciones buscan integrar inteligencia artificial en sus aplicaciones, los modelos de lenguaje de gran tamaño han adquirido protagonismo en el procesamiento de lenguaje natural. Amazon SageMaker AI, un servicio gestionado por AWS, permite implementar estos modelos, ofreciendo opciones para optimizar costos, latencia y rendimiento. AWS continúa brindando diversas elecciones a sus clientes, incluyendo modelos, hardware y herramientas específicos.
Los modelos tradicionales de lenguaje, con miles de millones de parámetros, requieren recursos computacionales voluminosos. Por ejemplo, un modelo con 7 mil millones de parámetros, como el Meta Llama 7B, demanda cerca de 14 GB de memoria GPU para manejar sus pesos. Sin embargo, avances recientes en la cuantización de modelos y la destilación de conocimiento han posibilitado la ejecución más eficiente de modelos más pequeños en infraestructuras basadas en CPU. Aunque estos no igualan a los modelos más grandes en capacidad, representan una opción práctica para aplicaciones donde la optimización de costos es esencial.
En este contexto, se ha demostrado la viabilidad de implementar un modelo de lenguaje pequeño en SageMaker AI, extendiendo contenedores preconstruidos para ser compatibles con instancias de AWS Graviton. La solución emplea procesadores Graviton3 para ejecutar modelos de forma rentable, utilizando componentes como puntos finales de SageMaker AI, instancias basadas en Graviton3 y gráficos precuantizados.
Los procesadores Graviton, específicamente diseñados para cargas de trabajo en la nube, ofrecen una plataforma óptima para modelos cuantizados, proporcionando un rendimiento de precio hasta un 50% mejor que CPU tradicionales. Además, SageMaker facilita operaciones simplificadas y escalabilidad sin costos adicionales de inactividad.
El contenedor se basa en Llama.cpp, eficaz para inferencias, minimizando el uso de memoria y mejorando la velocidad de procesamiento. Los usuarios pueden implementar modelos con diversas herramientas, permitiendo personalización extensa.
Para esta implementación, es necesario crear un contenedor Docker compatible con arquitectura ARM64 y preparar el modelo y código de inferencia. Esto se logra con la clase PyTorchModel del SDK de SageMaker Python, permitiendo el despliegue en un punto final con una instancia Graviton.
Este enfoque subraya la tendencia creciente de usar CPU para la inferencia de modelos, reduciendo costos y gestionando mejor los recursos en aplicaciones de inteligencia artificial. Con SageMaker AI y procesadores Graviton, las organizaciones pueden escalar sus capacidades de IA de manera más eficaz y eficiente.