Optimización de los Puntos de Final de Modelo de Salesforce con Componentes de Inferencia AI de Amazon SageMaker

Elena Digital López

Salesforce y Amazon Web Services (AWS) han revelado una nueva colaboración destinada a mejorar la implementación de modelos de inteligencia artificial, particularmente los modelos de lenguaje de gran tamaño (LLMs). El equipo de Model Serving de la plataforma de inteligencia artificial de Salesforce se especializa en desarrollar y gestionar servicios para estos modelos, proporcionando una infraestructura sólida que facilita la integración de algoritmos de aprendizaje automático en aplicaciones cruciales.

Uno de los principales desafíos que enfrenta este equipo es el despliegue eficiente de modelos, garantizando un rendimiento óptimo y una gestión de costos efectiva. La complejidad aumenta debido a la diversidad en los tamaños y requisitos de rendimiento de los modelos, que varían desde unos pocos gigabytes hasta 30 GB.

El equipo ha identificado dos retos distintos. Por un lado, los modelos más grandes suelen ser menos exigentes en términos de recursos, lo que conduce a un uso subóptimo de las instancias de múltiples GPUs. En contraste, los modelos de tamaño intermedio necesitan un procesamiento rápido, resultando en mayores costos a causa de la sobreasignación de recursos.

Para abordar estos desafíos, Salesforce ha implementado componentes de inferencia de Amazon SageMaker, que facilitan la implementación de múltiples modelos en un solo endpoint de SageMaker. Esto posibilita un control detallado sobre los recursos asignados a cada modelo, mejorando considerablemente la utilización de estos y reduciendo los costos asociados.

La estrategia de incluir componentes de inferencia ofrece varios beneficios, como la optimización del uso de GPUs y la capacidad de escalar modelos de manera independiente según las necesidades de cada aplicación. Esto no solo resuelve problemas inmediatos de implementación, sino que también proporciona una base flexible para el crecimiento de las iniciativas de inteligencia artificial de Salesforce.

Con estas soluciones, Salesforce puede reducir significativamente los costos de infraestructura y mejorar la eficiencia operativa, alcanzando hasta un 80% de ahorro en costos de despliegue. Además, esta optimización permite mejorar el rendimiento de los modelos más pequeños, aprovechando GPUs de alto rendimiento sin elevar los costos.

Mirando hacia el futuro, Salesforce planea utilizar la capacidad de actualizaciones continuas de los componentes de inferencia, manteniendo sus modelos actualizados de manera eficiente. Esto minimiza la carga operativa y facilita la integración de innovaciones futuras en su plataforma de inteligencia artificial, posicionando a la compañía para expandir sus ofertas mientras mantiene altos estándares de eficiencia y efectividad en costos.

Scroll al inicio