Lecciones Sobre Creación de Modelos Fundamentales en AWS con el Programa GENIAC de Japón

Elena Digital López

En 2024, el Ministerio de Economía, Comercio e Industria de Japón introdujo un ambicioso programa nacional llamado Generative AI Accelerator Challenge (GENIAC), diseñado para impulsar la inteligencia artificial generativa. Este innovador programa está destinado a proporcionar a las empresas participantes no solo financiación, sino también asesoramiento experto y recursos computacionales masivos para el desarrollo de modelos fundamentales. Amazon Web Services (AWS) ha sido seleccionado como el proveedor de nube para la segunda fase de GENIAC, brindando infraestructura y soporte técnico esencial a 12 organizaciones involucradas.

La tarea, que en principio parecía simple —ofrecer acceso a cientos de GPUs y chips Trainium para fomentar la innovación—, reveló ser más compleja en la práctica. AWS pronto comprendió que, aunque disponían de más de 1,000 aceleradores, lo crucial era crear un sistema confiable y superar los desafíos involucrados en el entrenamiento distribuido de modelos.

Durante esta segunda fase, las 12 organizaciones participantes lograron implementar exitosamente 127 instancias de Amazon EC2 P5 y 24 instancias de Amazon EC2 Trn1 en un solo día. En los seis meses posteriores, se entrenaron varios modelos de gran escala, incluyendo proyectos prominentes como Stockmark-2-100B-Instruct-beta y Llama 3.1 Shisa V2 405B.

Uno de los aprendizajes esenciales de esta experiencia fue la importancia de contar con equipos de trabajo multidisciplinarios para llevar adelante una iniciativa de aprendizaje automático tan ambiciosa. AWS creó un equipo virtual que integraba a los equipos de cuentas, arquitectos de soluciones y los equipos de servicio, lo que facilitó un intercambio eficiente de información y soporte.

Además, la comunicación estructurada jugó un rol crucial. Un canal interno de Slack fue establecido para coordinar el programa, permitiendo una rápida solución de problemas y creando un ambiente colaborativo donde los participantes podían interactuar y compartir información. AWS también empleó documentos detallados de seguimiento para cada cliente, aclarando requisitos técnicos y configuraciones necesarias. Mediante reuniones semanales, el equipo podía compartir lecciones aprendidas y mejorar continuamente.

La creación de arquitecturas de referencia fue igualmente vital. En lugar de que cada equipo configurara su propio clúster desde cero, AWS desarrolló plantillas y automatizaciones pre-validadas para dos enfoques principales: AWS ParallelCluster y SageMaker HyperPod. Estas arquitecturas permitieron a los equipos desplegar entornos con eficacia y mínima fricción.

El programa GENIAC ha revelado que el entrenamiento de modelos fundamentales a gran escala es, ante todo, un reto organizativo. Gracias al soporte estructurado y al enfoque colaborativo, los participantes pudieron manejar cargas de trabajo significativas con éxito. Al concluir la segunda fase, se organizó un evento técnico en Tokio para preparar a los desarrolladores para la siguiente etapa de GENIAC, marcando un hito importante en el progreso de la inteligencia artificial generativa. AWS continúa comprometido con el avance de estas tecnologías a nivel mundial.

Scroll al inicio