Метод Metric Match сокращает расходы на оценку LLM-судей на 32,5%

Исследователи представили метод Metric Match, позволяющий значительно сократить затраты на оценку надежности LLM-судей. Эта техника выбирает подмножество образцов для ручной разметки таким образом, чтобы оно максимально соответствовало популяционным метрикам надежности на основе синтетических меток.

LLM-судьи используются для автоматической оценки качества текстов, генерируемых моделями, заменяя дорогостоящий труд людей. Однако их надежность зависит от согласованности с оценками человека, что требует дополнительных затрат на аннотации. Metric Match решает эту проблему, уменьшая объем необходимой ручной работы.

В экспериментах на 15 наборах данных и четырех корреляционных метриках метод показал выигрышную долю 0,838 по сравнению со случайным выбором. Средняя ошибка оценки снизилась на 18,7%, а потребность в аннотациях — на 32,5%.

Авторы также привели пример из медицинской сферы, где применение Metric Match позволило сэкономить 1041,67 доллара на экспертных аннотациях по сравнению со случайным отбором. Это демонстрирует практическую ценность метода в задачах, где высока стоимость привлечения специалистов.

Помимо оценки надежности, исследователи адаптировали метод для задачи классификации — определения, превышает ли LLM-судья порог пригодности к развертыванию. В этой задаче Metric Match также превзошел случайный отбор.

Код проекта полностью открыт, а также доступен для установки в виде пакета, что облегчает его использование другими исследователями и разработчиками. Работа опубликована на arXiv и может стать основой для более эффективного внедрения автоматических оценщиков на практике.