FailureScope: точная диагностика слабых мест языковых моделей на разных задачах
Группа исследователей опубликовала в arXiv статью, в которой представила FailureScope — метод поведенческой диагностики языковых моделей. В отличие от стандартных бенчмарков, показывающих лишь среднюю точность, FailureScope кластеризует тестовые задания по тому, какие модели проходят их, а какие нет, используя подход leave-one-model-out (LOMO). Это позволяет получить устойчивые и интерпретируемые таксономии слабых мест.
Метод протестировали в трёх обычно разобщённых режимах: одношаговые бенчмарки (2664 задания на 18 моделях), многоповоротные диалоги (363 задачи) и состязательные атаки на агентов (630 трасс). Таксономически обусловленная выборка снизила число необходимых тестов: при 50 заданиях достигался коэффициент Кендалла 0,81, тогда как случайная выборка давала лишь 0,34. Прогнозирование слабых мест на невиданных моделях показало AUC 0,88.
Отдельно FailureScope выявил мета-режим отказа: на состязательных трассах обнаружен разрыв в 73–100 процентных пунктов между оценкой уязвимости LLM-судьёй и фактическим выполнением вредоносного действия. Это указывает на систематическое завышение защищённости моделей при автоматических оценках.
Кластерная когезия оставалась высокой во всех трёх режимах, что, по мнению авторов, свидетельствует о переносимости метода за пределы единичного бенчмарка. Исследователи выпустили пайплайн FailureScope, три аннотированных корпуса и кросс-режимные таксономии для дальнейшего использования сообществом.
Результаты подчёркивают важность неагрегированной диагностики: для разработчиков практичнее знать конкретные сценарии, в которых модель ошибается, чем просто общий балл. FailureScope может стать стандартным инструментом для оценки и отладки крупных языковых моделей.


