El entrenamiento de modelos avanzados de inteligencia artificial, como el nuevo Llama 3 con 70 mil millones de parámetros, plantea desafíos significativos para la computación moderna. Este tipo de procesos requiere un sistema distribuido que puede integrar cientos o incluso miles de instancias aceleradas, funcionando durante semanas o meses para completar un único trabajo. Un ejemplo de ello es el preentrenamiento del modelo Llama 3, que utilizó 15 billones de tokens de entrenamiento y demandó 6.5 millones de horas de GPU H100. Para esto, se emplearon 256 instancias de Amazon EC2 P5, cada una equipada con 8 GPUs NVIDIA H100, lo cual llevó aproximadamente 132 días.
Los trabajos de entrenamiento distribuidos funcionan de manera sincrónica, es decir, cada paso de entrenamiento necesita que todas las instancias participantes completen sus cálculos antes de avanzar al siguiente paso. Esto significa que un fallo en una sola instancia puede detener todo el progreso. A medida que crece el tamaño del clúster, también lo hace la probabilidad de fallos, debido a la cantidad de componentes de hardware involucrados.
La fiabilidad del sistema se evalúa mediante métricas como el tiempo medio entre fallos (MTBF), demostrando cómo un fallo de hardware no solo provoca la pérdida de horas de GPU, sino que también requiere tiempo valioso para identificar y resolver el problema. En diversos casos de entrenamiento, como el realizado por Meta AI con el modelo OPT-175B y el Llama 3.1, las tasas de fallo se mantuvieron entre 0.02% y 0.06% por hora.
El tamaño creciente del clúster influye de manera considerable en la fiabilidad total del sistema, ya que la entropía aumenta y el MTBF disminuye. Por ejemplo, con una tasa de fallo del 0.04% por hora, un sistema con 512 instancias podía esperar un fallo aproximadamente cada 5 horas. Este aumento de las tasas de fallo al agrandar los clústeres supone un desafío considerable para los equipos de ingeniería.
Frente a este panorama, la detección rápida de fallos y los tiempos de sustitución cortos resultan esenciales. Amazon SageMaker HyperPod se presenta como una solución que reduce interrupciones y minimiza costos. Automatizando la detección y sustitución de instancias defectuosas, SageMaker HyperPod permite la reanudación del entrenamiento desde el último punto guardado. Las mediciones empíricas sugieren que esta plataforma podría reducir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias ante una tasa de fallo del 0.05%, generando un ahorro de aproximadamente 25 millones de dólares.
La necesidad de entrenar modelos de frontera de manera eficaz obliga a las empresas a encontrar soluciones que les permitan enfocar sus esfuerzos en la innovación más que en la gestión de infraestructura. SageMaker HyperPod ofrece a los equipos de inteligencia artificial la confianza necesaria para llevar a cabo entrenamientos prolongados con la certeza de que cualquier fallo de hardware será manejado automáticamente, minimizando las interrupciones en el proceso.