RoPoLL: новый метод оценки ИИ устойчив к предвзятости судей
Оценка качества работы больших языковых моделей (LLM) часто проводится с помощью «жюри» из самих же ИИ-моделей — так называемого пула экспертов (PoLL). Однако, как выяснили исследователи, такой подход уязвим: если хотя бы один из судей демонстрирует типичную для LLM предвзятость (например, коллапс режима, сикофантство или отказ безопасности), итоговая оценка может быть сильно искажена. Статья с описанием нового решения опубликована на arXiv.
Авторы работы формализовали проблему с помощью модели загрязнения Хубера и показали, что стандартное PoLL имеет неограниченное смещение при любом положительном загрязнении, независимо от размера жюри. Причиной является типичное для LLM предвзятое поведение одного из судей. Это делает классическое усреднение ненадёжным.
В качестве выхода предложен метод RoPoLL (Robust Panel of LLM-as-Judge). Он использует ту же панель судей, но заменяет агрегацию оценок на робастную оценку среднего — геометрическую медиану. Этот метод не требует настройки гиперпараметров и сохраняет устойчивость при доле «испорченных» оценок до 50%.
Теоретически авторы доказали, что граница ошибки RoPoLL составляет порядка ??(d/N), что совпадает с информационно-теоретической нижней границей с точностью до множителя ?d. Этот разрыв, по их словам, неизбежен для вычислительно эффективного алгоритма.
Эксперименты проводились на 13 открытых моделях-судьях размером от 4B до 675B параметров, трёх бенчмарках и четырёх сценариях зашумления с уровнем коррупции до 50%. RoPoLL превзошёл PoLL по всем типам предвзятого зашумления: в среднем на 19% при атаках на междименсионную согласованность и на порядки — при тяжёлых византийских искажениях.
Особенно показателен пример: комитет из трёх судей RoPoLL общим объёмом 38B параметров превзошёл модель Mistral-Large-3 (675B) в 1,31 раза по точности на бенчмарке HelpSteer-2 при 30% бимодально-случайного зашумления. Таким образом, компактное жюри с робастной агрегацией дало выигрыш по эффективности в 18 раз в пересчёте на число параметров.
Метод RoPoLL открывает путь к более надёжной и экономичной оценке языковых моделей, снижая зависимость от гигантских моделей-экспертов. Исследователи отмечают, что премия в точности платится именно за защиту от предвзятого загрязнения, а не от безобидных случайных ошибок.


