La batalla por tener la mejor inteligencia artificial del mundo acaba de subir otro nivel. En muy poco tiempo se ha pasado de conocer nombres como ChatGPT o Gemini a ver cómo nuevas versiones se relevan unas a otras en cuestión de semanas. La última en ponerse en cabeza es Claude Opus 4.5, el modelo de Anthropic, que según los datos publicados por la propia compañía se sitúa por delante de Gemini 3 Pro (Google) y GPT-5.1 (OpenAI) en la mayoría de pruebas comparativas.
Para entender qué significa esto para el usuario de a pie, conviene bajar el nivel de tecnicismos y traducir los números a ideas sencillas: ¿en qué es mejor Claude?, ¿dónde siguen fuertes Google y OpenAI?, ¿y por qué importa todo esto?
Un modelo de IA que puede “pensar más” cuando hace falta
Anthropic define Claude Opus 4.5 como un modelo híbrido. En la práctica, esto significa que se puede usar de dos formas:
- Modo estándar, más rápido, pensado para tareas normales del día a día: escribir, resumir, responder preguntas…
- Modo de “pensamiento extendido”, donde la IA dedica más tiempo y pasos internos a razonar problemas complejos (por ejemplo, resolver ejercicios de programación difíciles o puzzles lógicos).
Además, la compañía introduce un control llamado “Esfuerzo”, que permite elegir cuántos recursos se utilizan en cada consulta. El usuario —o la empresa que integra el modelo— puede decidir si prefiere respuesta muy rápida o respuesta más elaborada aunque tarde algo más.
Según Anthropic, el nuevo modelo también es más barato de utilizar: habla de 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, una forma técnica de medir la cantidad de texto procesado.
La comparación en números: quién gana en cada campo
La tabla de benchmarks publicada por Anthropic enfrenta a cinco modelos punteros:
- Claude Opus 4.5
- Claude Sonnet 4.5
- Opus 4.1 (versión anterior)
- Gemini 3 Pro de Google
- GPT-5.1 de OpenAI
Cada fila es un tipo de prueba distinta: programación, uso de herramientas, resolución de problemas, razonamiento visual, preguntas en varios idiomas, etc.
Tabla comparativa simplificada
| Prueba (resumen) | Opus 4.5 | Sonnet 4.5 | Opus 4.1 | Gemini 3 Pro | GPT-5.1 |
|---|---|---|---|---|---|
| Programación autónoma (agentic coding) | 80,9 % | 77,2 % | 74,5 % | 76,2 % | 76,3 % |
| Uso del terminal / consola | 59,3 % | 50,0 % | 46,5 % | 54,2 % | 47,6 % |
| Uso de herramientas (retail) | 88,9 % | 86,2 % | 86,8 % | 85,3 % | — |
| Uso de herramientas a gran escala | 62,3 % | 43,8 % | 40,9 % | — | — |
| Uso del ordenador (OSWorld) | 66,3 % | 61,4 % | 44,4 % | — | — |
| Problemas nuevos y difíciles | 37,6 % | 13,6 % | — | 31,1 % | 17,6 % |
| Razonamiento nivel posgrado | 87,0 % | 83,4 % | 81,0 % | 91,9 % | 88,1 % |
| Razonamiento visual | 80,7 % | 77,8 % | 77,1 % | — | 85,4 % |
| Preguntas y respuestas multilingües | 90,8 % | 89,1 % | 89,5 % | 91,8 % | 91,0 % |
Visto así, el panorama es el siguiente:
- Claude Opus 4.5 gana en 7 de las 10 pruebas donde hay datos para varios modelos.
- Destaca sobre todo en tareas “agénticas”:
- Programar por sí mismo.
- Usar un terminal.
- Manejar herramientas externas y un entorno de ordenador.
- En cambio, no es el mejor en todo:
- Gemini 3 Pro domina en razonamiento de nivel posgrado y en preguntas multilingües (aunque por poco margen sobre GPT-5.1 y Opus 4.5).
- GPT-5.1 se coloca primero en razonamiento visual, es decir, cuando la IA tiene que entender imágenes complejas, gráficos o contenido visual.
¿Qué significan estas pruebas para alguien “normal”?
Aunque nombres como SWE-bench o ARC-AGI-2 suenen muy técnicos, se pueden traducir a situaciones bastante reconocibles:
- Cuando se habla de agentic coding o uso de herramientas, se mide hasta qué punto la IA puede solucionar un problema real por sí sola: escribir código, corregir errores, abrir programas, llamar a APIs, seguir pasos largos sin perderse…
- El apartado de computer use simula a la IA usando un ordenador como lo haría una persona: moviéndose por menús, pulsando botones virtuales o completando tareas dentro de una interfaz.
- Las pruebas de razonamiento avanzado, visual o multilingüe son más parecidas a lo que muchos imaginan: contestar exámenes difíciles, interpretar fotos o gráficos, cambiar de idioma sin perder precisión.
Dicho de otra forma:
- Claude Opus 4.5 parece especialmente bueno como “ayudante que hace cosas”: programa, automatiza, usa sistemas.
- Gemini 3 Pro y GPT-5.1 mantienen ventaja en campos donde la comprensión profunda de textos, imágenes o varios idiomas es crucial.
Un “nuevo rey”… pero con un trono compartido
Que Anthropic presente a Claude Opus 4.5 como nuevo referente no significa que los demás hayan quedado obsoletos. Más bien al contrario: el resultado de la tabla muestra un empate técnico en la parte alta, donde cada modelo brilla en aspectos distintos.
Para los usuarios y las empresas, el mensaje importante es este:
- No existe una única IA “perfecta” para todo.
- Elegir modelo será cada vez más parecido a elegir herramienta:
- Uno puede ser mejor para automatizar procesos internos.
- Otro, para analizar imágenes y documentos complejos.
- Otro, para trabajar en varios idiomas o redactar textos largos.
Lo que sí parece claro es que la inteligencia artificial está avanzando a una velocidad que hace que el “líder” cambie en cuestión de semanas. Hace poco fue Gemini 3 Pro, ahora es el turno de Claude Opus 4.5, y no habría que descartar que OpenAI o Google respondan con nuevas versiones a corto plazo.
Mientras tanto, para el usuario de a pie la conclusión es tranquilizadora: la competencia juega a su favor. Cuanto más se peleen las grandes tecnológicas por ofrecer el mejor modelo, más fáciles, potentes y accesibles serán las herramientas de IA que acabaremos usando todos en el trabajo, en clase o en casa.
