Клод Опус 4.5 выходит на сцену! Точность значительно превышает GPT-5.1 и Gemini 3, Лотте: самосовершенствование на высшем уровне.

ChainNewsAbmedia

2025-11-25 08:54:29

Всего через неделю после запуска Google Gemini 3, Anthropic также объявила о запуске своей последней флагманской модели Claude Opus 4.5 25 ноября, и заявила, что эта версия значительно улучшена в написании кода, работе с AI-агентами и использовании компьютерных приложений, а также может обрабатывать более длинные диалоги. Руководитель по связям с разработчиками Anthropic Алекс Альберт даже сказал в интервью: «Это самая умная модель в мире.»

Клод Опус 4.5 все сильные стороны сразу в одном месте

亮点一：Эффективность побеждает GPT-5.1 и Gemini 3, улучшая агентские приложения

Официально Opus 4.5 позиционируется как «одна из самых мощных моделей в мире», и с сегодняшнего дня она доступна для использования в приложении, API и на трех крупных облачных платформах (AWS, GCP, Azure). Из сравнительных графиков производительности AI моделей, предоставленных Anthropic, можно сделать вывод:

«Opus 4.5 имеет точность до 80,9 %, превосходя Gemini 3 Pro и GPT-5.1.»

Официальные источники заявили, что в Opus 4.5 особенно выделяются программирование, AI Agents, многопроцессное рассуждение и работа с компьютерными инструментами. Например, в таких обычных задачах, как длительные исследования, PowerPoint, Excel и других приложениях, производительность также заметно улучшилась.

Новая цена составляет 5 долларов за миллион вводимых токенов и 25 долларов за миллион выводимых токенов, что более доступно по сравнению с предыдущей версией Opus 4.1, позволяя большему числу компаний и команд использовать функции уровня Opus.

Яркая точка 2: Внутренние тесты получили одинаково положительные отзывы, могут понимать и решать задачи.

Anthropic сообщил, что после выпуска тестовой версии члены команды предоставили единодушную обратную связь. В частности:

«Opus 4.5 может справляться с некоторыми неясными проблемами, проводить взвешивание выводов и самостоятельно находить решения при сложных ошибках в многосистемной среде.»

Изначально задача, которую Sonnet 4.5 почти не могла выполнить, теперь доступна для Opus 4.5. Тестировщики в целом отмечают, что Opus 4.5 хорошо понимает «намерения пользователей», и официальные лица также считают, что это приводит к очевидной разнице в опыте.

Windsurf, GitHub и другие генеральные директора все поддерживают Opus 4.5. Яркая особенность три: инновационный рекорд в программных тестах, результаты экзамена за два часа превосходят человеческие.

Anthropic отметила, что компания использует довольно сложный практический тест при наборе инженеров. На этот раз в пределах того же двухчасового лимита времени, производительность Claude Opus 4.5 превзошла всех предыдущих человеческих кандидатов, установив новый рекорд.

Официальное дополнение: этот тест в основном оценивает технические навыки и способность принимать решения под давлением, не затрагивая такие мягкие навыки, как сотрудничество и коммуникация. Однако из результатов этого теста можно увидеть, что ИИ в области инженерии быстро прогрессирует на чисто техническом уровне.

Яркая точка 4: безопасность дополнительно усиливается, затрудняя мошенничество с атаками внедрения подсказок.

Anthropic подчеркивает, что Opus 4.5 является «самой высоко согласованной и самой безопасной» версией модели на сегодняшний день.

Основное внимание в этом обновлении безопасности было уделено тому, что модель значительно повысила свою устойчивость к атакам с внедрением подсказок, и злонамеренные команды не так легко проникают в модель, а также труднее обмануть систему, заставив ее выполнить неправильные действия. По сравнению с другими передовыми моделями, Opus 4.5 также показал лучшие результаты в соответствующих тестах безопасности. Из нижеприведенного изображения видно:

«Opus 4.5 и другие известные модели при одинаковых условиях тестирования являются наиболее защищенными от обмана и успешных атак с инъекцией подсказок, демонстрируя выдающиеся результаты защиты.»

Яркая точка пять: длительные разговоры без разрывов, Chrome и приложение полностью улучшают опыт

Anthropic также обновила несколько продуктов. Во-первых, режим плана Claude Code был дополнительно обновлен, он сначала проясняет вопрос и автоматически создает редактируемый plan.md, а затем выполняет программу. В настольной версии также добавлены несколько сессий, которые позволяют нескольким агентам одновременно выполнять разные задачи.

Обычные пользователи также заметят улучшения в приложении Claude. Длинные беседы больше не застревают из-за слишком длинного контекста, система автоматически упорядочивает предыдущие данные, чтобы разговор не прерывался. Claude для Chrome теперь полностью доступен для пользователей Max и может обрабатывать сложные операции между вкладками.

Claude для Excel изначально был доступен только пользователям Beta, однако теперь он расширен на пользователей Max, Team и Enterprise, а также интегрирован с Opus 4.5 для улучшения возможностей работы с таблицами и данными. В конечном итоге, Anthropic также увеличил общий лимит использования, отменив специальные ограничения для Opus, что позволяет пользователям Max и Team Premium использовать Opus 4.5 на уровне «повседневной нагрузки». В будущем, если будут выпущены более мощные модели, соответствующее использование также будет пересмотрено.

( Примечание:

plan.md

Это не внешний файл, а «документ плана задания», автоматически создаваемый Claude Code перед выполнением задания, формат которого использует распространенный Markdown. )

Две точки шесть: Ракутен отметила, что Opus 4.5 обладает функцией самосовершенствования.

Одним из особых моментов является то, что японская компания Rakuten ( отметила, что Claude Opus 4.5 демонстрирует очевидный прорыв в области саморазвивающихся AI-агентов.

В реальном применении офисной автоматизации соответствующие агенты могут самостоятельно оптимизировать свои возможности, достигая наилучших результатов всего за четыре итерации, в то время как другие модели, даже после десяти итераций, не могут достичь такого же качества.

Летян подчеркивает, что это различие позволяет Opus 4.5 демонстрировать более высокую эффективность в корпоративных приложениях.

Эта статья о Claude Opus 4.5! Точность значительно превосходит GPT-5.1 и Gemini 3, Rakuten: самосовершенствование на высшем уровне. Впервые появилась в Chain News ABMedia.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .