¡Claude Opus 4.5 ha llegado! Precisión mucho mayor que GPT-5.1 y Gemini 3, Rakuten: autoevolución fuerte.

ChainNewsAbmedia

2025-11-25 08:54:29

Justo una semana después del lanzamiento de Gemini 3 por parte de Google, Anthropic también anunció el 25 de noviembre el lanzamiento de su último modelo insignia Claude Opus 4.5, y afirmó que esta versión ha mejorado considerablemente en programación, operación de agentes de IA y uso de aplicaciones informáticas, además de poder manejar diálogos más largos. El director de relaciones con desarrolladores de Anthropic, Alex Albert, incluso comentó en una entrevista: “Este es el modelo más Satoshi del mundo.”

Claude Opus 4.5 los mejores aspectos destacados en un vistazo

Punto destacado uno: rendimiento que supera a GPT-5.1 y Gemini 3, fortaleciendo las aplicaciones de代理.

El oficial posiciona Opus 4.5 como “uno de los modelos más poderosos del mundo” y a partir de hoy está disponible en App, API y las tres principales plataformas en la nube (AWS, GCP, Azure). A partir del gráfico de comparación de rendimiento de modelos de IA proporcionado por Anthropic se puede deducir:

“Opus 4.5 tiene una tasa de precisión de hasta 80.9 %, superando a Gemini 3 Pro y GPT-5.1.”

El oficial ha declarado que esta vez Opus 4.5 se destaca especialmente en programación, Agentes de IA, razonamiento de múltiples pasos y operaciones con herramientas informáticas, como por ejemplo, su rendimiento en aplicaciones de trabajo común como investigaciones extensas, PowerPoint, Excel, etc., también ha mejorado notablemente.

El nuevo precio es de 5 dólares por cada millón de tokens de entrada y 25 dólares por cada millón de tokens de salida, lo que es más accesible que la generación anterior Opus 4.1, permitiendo que más empresas y equipos adopten funciones de nivel Opus.

Punto destacado dos: pruebas internas consistentemente bien valoradas, capaces de entender y resolver problemas.

Anthropic reveló que, tras el lanzamiento de la versión de prueba, los miembros del equipo dieron comentarios unánimes. Especialmente:

“Opus 4.5 puede manejar algunos problemas vagos y razonamientos de compensación, y cuando se encuentra con errores complejos de múltiples sistemas, explorará soluciones por sí mismo.”

La tarea que originalmente Sonnet 4.5 apenas podía realizar, ahora Opus 4.5 puede completarla. Los testers en general indican que Opus 4.5 entiende muy bien “la intención del usuario”, y la oficial también considera que esto trae una diferencia de experiencia notable.

Windsurf, GitHub y otros CEOs respaldan Opus 4.5. Destacado tres: Innovador récord de pruebas de programación, el desempeño en el examen de dos horas supera al humano.

Anthropic señala que la empresa utiliza una prueba de implementación de dificultad bastante alta al reclutar ingenieros. En esta ocasión, dentro del mismo límite de tiempo de dos horas, el desempeño de Claude Opus 4.5 superó a todos los solicitantes humanos de años anteriores, estableciendo un nuevo récord.

Complemento oficial, esta prueba evalúa principalmente la capacidad técnica y el juicio bajo presión, sin involucrar habilidades blandas como la colaboración y la comunicación. Sin embargo, a partir de los resultados de esta vez, se puede ver que la IA está avanzando a una velocidad extremadamente rápida en el ámbito técnico de la ingeniería.

Punto destacado cuatro: mayor refuerzo de la seguridad, más difícil de ser engañado por ataques de inyección de advertencias.

Anthropic enfatiza que Opus 4.5 es la versión del modelo “más alineada y segura” hasta ahora.

La actualización de seguridad de esta vez se centra en que la resistencia del modelo frente a ataques de inyección de prompts ha mejorado considerablemente, las instrucciones maliciosas son menos propensas a ser incluidas en el modelo y es más difícil engañar al sistema para que ejecute comportamientos inapropiados. En comparación con otros modelos de vanguardia, Opus 4.5 también obtuvo los mejores resultados en las pruebas de seguridad relacionadas. De la siguiente imagen se puede deducir:

“Opus 4.5 es el modelo menos susceptible a ser engañado y el que menos éxito tiene frente a ataques de inyección de indicaciones bajo las mismas condiciones de prueba que otros modelos conocidos, mostrando un rendimiento defensivo destacado.”

Punto destacado cinco: conversación larga sin interrupciones, Chrome y App mejoran la experiencia de manera integral.

Anthropic también ha actualizado varios productos. Primero, el Modo Plan de Claude Code ha sido mejorado, aclarando primero las preguntas y luego generando automáticamente un plan.md editable antes de proceder con la ejecución del programa. La versión de escritorio también ha añadido sesiones múltiples, permitiendo que varios agentes realicen diferentes tareas al mismo tiempo.

La aplicación Claude, que los usuarios generales suelen utilizar, también ha mejorado, ya que las largas conversaciones ya no se detienen debido a un contexto demasiado largo; el sistema reorganiza automáticamente el contenido anterior para que la conversación no se interrumpa. Claude para Chrome ahora está completamente abierto a los usuarios de Max, permitiendo manejar operaciones complejas a través de múltiples pestañas.

Claude para Excel originalmente estaba limitado a usuarios Beta, pero ahora se ha expandido a usuarios Max, Team y Enterprise, combinándose con Opus 4.5 para mejorar la capacidad de procesamiento de hojas de cálculo y datos. Finalmente, Anthropic también ha aumentado el límite general de uso, eliminando las restricciones exclusivas de Opus, permitiendo a los usuarios Premium de Max y Team utilizar Opus 4.5 a niveles de “carga de trabajo diaria”. Si se lanzan modelos más potentes en el futuro, el uso relacionado también se ajustará.

( Nota:

plan.md

No es un archivo externo, sino un “documento de planificación de tareas” que Claude Code genera automáticamente antes de ejecutar la tarea, utilizando el formato común de Markdown. )

Dos punto seis: Rakuten señaló que Opus 4.5 tiene funciones de autoevolución.

Uno de los aspectos destacados es que Rakuten ( en Japón señaló que Claude Opus 4.5 ha mostrado avances significativos en los agentes de IA autoevolutivos.

En la aplicación práctica de la automatización de oficinas, los programas de agente relacionados pueden optimizar su capacidad por sí mismos, logrando el mejor rendimiento en solo cuatro iteraciones, mientras que otros modelos, incluso si se ejecutan diez veces, no pueden alcanzar la misma calidad.

Rakuten enfatiza que esta diferencia permite a Opus 4.5 mostrar una mayor eficiencia en aplicaciones empresariales.

¡Este artículo presenta Claude Opus 4.5! Precisión superando a GPT-5.1 y Gemini 3, Rakuten: la autoevolución es fuerte, apareció por primera vez en Chain News ABMedia.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.