Новый фреймворк PReMISE улучшает точность LLM-судей: оценка по рубрикам стала надежнее

Исследователи представили фреймворк PReMISE (Policy Rubrics as Measurement Specifications for LLM Judges), который решает проблему неоднозначности в оценке ответов больших языковых моделей (LLM). Часто используемые рубрики вроде «полезный и фактологичный» могут поощрять красивые, но ложные ответы. PReMISE превращает рубрики в измерительные спецификации.

Фреймворк работает в два этапа: сначала на основе парных данных о предпочтениях людей он обнаруживает набор рубрик на уровне политик, а затем аудитирует любой набор рубрик по четырём осям: структурная адекватность, надёжность, соответствие предпочтениям и устойчивость к состязательным атакам. Анализ показал, что ни один исходный источник рубрик не является одновременно надёжным, предсказательным в отношении предпочтений и устойчивым к атакам.

Ключевой вывод: высокая согласованность между оценщиками не гарантирует низкой эксплуатабельности. PReMISE оказался единственным источником рубрик, который одновременно демонстрирует применимость, специфичность и эффективную размерность.

В рамках работы предложены две ремонтные операции. Первая — выборка по предпочтительности — повышает точность судьи при сравнении пар ответов с 65,0% до 68,6%, что конкурирует с лучшими базовыми методами. Вторая — уточнение с учётом надёжности — снижает долю эксплуатирующих ответов, получающих высокие оценки, с 46,4% до 36,0% при незначительном изменении согласованности между судьями (альфа Кронбаха: 0,531 ? 0,519).

Таким образом, PReMISE предлагает системный подход к созданию и проверке рубрик, что делает оценку LLM более объективной и устойчивой к манипуляциям. Разработка может быть полезна для разработчиков и исследователей, использующих LLM-судей в автоматизированной оценке.