Entrenamiento de Llama 3.3 Swallow: Un LLM Soberano Japonés en Amazon SageMaker HyperPod

Elena Digital López

En un avance significativo en el ámbito de la inteligencia artificial, el Instituto de Ciencia de Tokio ha completado con éxito el desarrollo de Llama 3.3 Swallow, un modelo de lenguaje con 70 mil millones de parámetros diseñado para el procesamiento avanzado del idioma japonés. Liderada por Kazuki Fujii, esta iniciativa se realizó utilizando la infraestructura de Amazon SageMaker HyperPod, optimizando el rendimiento en tareas relacionadas con el japonés y superando a modelos reconocidos como GPT-4o-mini.

Llama 3.3 Swallow se basa en la arquitectura de Meta Llama 3.3, pero introduce mejoras específicas para el idioma japonés. El modelo fue desarrollado en colaboración con los laboratorios Okazaki y Yokota del Instituto de Ciencia de Tokio y el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST). Actualmente, está disponible en la plataforma Hugging Face en dos variantes, ofreciendo acceso a investigadores y desarrolladores interesados en sus capacidades.

El entrenamiento del modelo se llevó a cabo mediante una preformación continua con el conjunto de datos Swallow Corpus Version 2, centrado en contenido educativo en japonés. Utilizando 32 instancias EC2 de Amazon con potentes GPUs, el proceso duró más de 16 días.

Los resultados destacan la superioridad del modelo sobre varias alternativas competitivas, especialmente en tareas lingüísticas en japonés. Su variante ajustada para instrucciones ha mostrado un rendimiento excepcional en el Japanese MT-Bench, un referente en la evaluación de aplicaciones prácticas en este idioma.

El modelo está disponible en Hugging Face bajo las licencias de uso de Meta Llama 3.3 y Gemma, promoviendo la innovación en aplicaciones de inteligencia artificial centradas en el japonés. Su infraestructura de entrenamiento, diseñada para ser escalable y eficiente, combina cómputo, red, almacenamiento y monitoreo, facilitando un entrenamiento más rápido y con menos interrupciones.

Además, se ha desarrollado un enfoque sistemático para la optimización de recursos y un sistema de monitoreo integral que permite la detección en tiempo real de problemas. Estos desarrollos planean ser liberados como proyectos de código abierto, aportando valiosos recursos a la comunidad de investigación en inteligencia artificial.

Con el éxito de Llama 3.3 Swallow, el equipo busca potenciar aún más sus capacidades y explorar nuevas aplicaciones en diversas áreas tecnológicas y de comunicación.

Scroll al inicio