Claude Opus 4.8: в 4 раза меньше незамеченных багов и рекорд на бенчмарках

Anthropic объявила о выходе Claude Opus 4.8 — обновления своей флагманской языковой модели. Новая версия доступна с сегодняшнего дня по прежним ценам: $5 за миллион входящих токенов и $25 за миллион исходящих.
Ключевое улучшение касается честности модели при работе с кодом. По данным Anthropic, Opus 4.8 в четыре раза реже, чем предыдущая версия 4.7, пропускает незамеченными баги в собственном коде. Это делает её более надёжной для задач программирования.
На бенчмарке Super-Agent, разработанном компанией Linkup, новая модель стала единственной, которая прошла все кейсы от начала до конца. При этом её стоимость остаётся на уровне конкурента GPT-5.5 при паритете производительности.
Ещё один тест — Online-Mind2Web — показал результат 84%, что превышает показатели как предшественника Opus 4.7, так и GPT-5.5. Этот бенчмарк оценивает способность ИИ выполнять сложные задачи в веб-среде.
Обновление ориентировано на разработчиков и компании, использующие ИИ для написания и проверки кода. Улучшенная честность модели снижает риск незамеченных ошибок, что может повысить доверие к автоматической генерации кода.
Claude Opus 4.8 продолжает линейку флагманских моделей Anthropic, сохраняя ценовую доступность при росте качества. Разработчикам стоит обратить внимание на обновление, особенно если они сталкивались с багами в предыдущих версиях.







