DeepSeek Coder V2, el primer modelo de cÃ³digo abierto que supera a GPT-4 Turbo

Por Notas Incubaweb

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La startup china de inteligencia artificial, DeepSeek, ha presentado DeepSeek Coder V2, un modelo de lenguaje de cÃ³digo abierto basado en la arquitectura Mixture of Experts (MoE). Este nuevo modelo no solo soporta mÃ¡s de 300 lenguajes de programaciÃ³n sino que tambiÃ©n supera a modelos de cÃ³digo cerrado como GPT-4 Turbo, Claude 3 Opus y Gemini 1.5 Pro en tareas de codificaciÃ³n y matemÃ¡ticas.

La empresa china de inteligencia artificial, DeepSeek, conocida por su competidor de ChatGPT entrenado en 2 billones de tokens en inglÃ©s y chino, ha anunciado el lanzamiento de DeepSeek Coder V2. Este modelo, basado en la arquitectura MoE y construido sobre DeepSeek-V2, lanzado el mes pasado, destaca en tareas de codificaciÃ³n y matemÃ¡ticas, y soporta mÃ¡s de 300 lenguajes de programaciÃ³n.

DeepSeek Coder V2 no solo supera a los modelos de cÃ³digo cerrado en tareas especÃficas sino que tambiÃ©n muestra un rendimiento comparable en tareas de razonamiento general y comprensiÃ³n del lenguaje. La empresa afirma que es la primera vez que un modelo abierto logra tal hazaÃ±a, situÃ¡ndose por delante de modelos como Llama 3-70B.

El modelo original DeepSeek Coder, con hasta 33 mil millones de parÃ¡metros, ya mostraba capacidades decentes en tareas como la finalizaciÃ³n de cÃ³digo a nivel de proyecto y la inflexiÃ³n, pero solo soportaba 86 lenguajes de programaciÃ³n y una ventana de contexto de 16K. La nueva versiÃ³n V2 amplÃa este soporte a 338 lenguajes y aumenta la ventana de contexto a 128K, permitiÃ©ndole manejar tareas de codificaciÃ³n mÃ¡s complejas y extensas.

Cuando se probÃ³ en benchmarks como MBPP+, HumanEval y Aider, diseÃ±ados para evaluar la generaciÃ³n de cÃ³digo, ediciÃ³n y capacidades de resoluciÃ³n de problemas de los LLMs, DeepSeek Coder V2 obtuvo puntajes de 76.2, 90.2 y 73.7, respectivamente, situÃ¡ndose por delante de la mayorÃa de modelos de cÃ³digo cerrado y abierto.

DeepSeek logrÃ³ estos avances tÃ©cnicos y de rendimiento utilizando DeepSeek V2, basado en su marco Mixture of Experts, y pre-entrenando el modelo base V2 en un conjunto de datos adicional de 6 billones de tokens, mayormente compuesto por datos relacionados con cÃ³digo y matemÃ¡ticas de GitHub y CommonCrawl.

AdemÃ¡s de sobresalir en tareas relacionadas con la codificaciÃ³n y las matemÃ¡ticas, DeepSeek Coder V2 tambiÃ©n ofrece un buen rendimiento en tareas de razonamiento general y comprensiÃ³n del lenguaje. Actualmente, DeepSeek Coder V2 se ofrece bajo una licencia MIT, lo que permite su uso tanto para investigaciÃ³n como para uso comercial no restringido.

El lanzamiento de DeepSeek Coder V2 marca un hito en el campo de los modelos de lenguaje de cÃ³digo abierto, demostrando que estos pueden competir y superar a los modelos de cÃ³digo cerrado en una variedad de tareas, no solo en sus casos de uso centrales.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Notas Incubaweb

Content and Social Media Director de Color Vivo. Escribo sobre emprendedores, startups, comunicaciÃ³n, marketing, redes sociales, blogs, apps mÃ³viles, SEO, SEM y mÃ¡s â†’ Web