Cognition выпустила бенчмарк FrontierCode: ИИ-модели оценят по качеству пулл-реквестов

Компания Cognition, известная разработкой AI-агента Devin, выпустила новый бенчмарк FrontierCode. Его цель — измерять способность ИИ-моделей создавать код, соответствующий стандартам качества реальных проектов. Как поясняют создатели, существующие тесты для языковых моделей часто проверяют лишь формальное выполнение задачи, а теперь необходимо задаться более сложным вопросом: могут ли модели писать хороший код?
Для оценки специалисты предложили необычный подход: они смоделировали ситуацию, в которой решение модели представляется в виде пулл-реквеста к реальному репозиторию. Вопрос ставится так: если бы тестовое задание было реальным запросом на слияние от модели, принял бы его мейнтейнер или нет? По признанию авторов, здесь есть как объективные критерии, так называемые блокеры, при которых пулл-реквест точно не будет смерджен, так и более сложная субъективная составляющая.
Чтобы сделать тест максимально приближённым к практике, Cognition обратилась к мейнтейнерам нескольких реальных репозиториев. Они помогли сформировать тестовые задания и критерии оценки. Таким образом, бенчмарк учитывает не только корректность кода, но и его стиль, архитектурную согласованность и соответствие правилам проекта.
FrontierCode призван дополнить существующие бенчмарки, такие как HumanEval или SWE-bench, которые чаще замеряют способность модели решить изолированную задачу. Новый подход, по мнению разработчиков, лучше отражает реальные потребности разработчиков, которые хотят видеть не просто работающий код, а код, готовый к включению в промышленную кодовую базу.
Пока неизвестно, какие модели уже протестированы с помощью FrontierCode и каковы результаты. Тем не менее, появление такого бенчмарка может стать важным шагом в развитии оценки ИИ-ассистентов программиста. Ожидается, что он будет полезен как исследователям, так и компаниям, внедряющим ИИ в процессы разработки.







