Ученые выявили недостатки стандартной оценки точности LLM

Исследователи из arXiv опубликовали работу, в которой оценили точность различных методов построения доверительных интервалов для метрик производительности классификаторов, включая большие языковые модели (LLM). Основное внимание уделялось условиям, типичным для социальных наук: небольшие и умеренные размеры выборок, редкие конструкты и тексты, вложенные в индивидов.

Авторы отмечают, что метрики вроде полноты и точности часто представляются как точечные оценки, но не сопровождаются мерами неопределенности. Когда такие меры указываются, используемые методы не всегда адекватны, особенно при малом объёме размеченных данных или высокой производительности модели.

В ходе симуляций было установлено, что стандартные интервалы Вальда и базовый перцентильный бутстрап оказались наименее точными: их фактическое покрытие иногда значительно ниже номинальных 95 %. Это означает, что исследователи могут переоценивать надёжность своих результатов.

Улучшение точности достигается при использовании методов Агрести-Кулла, Уилсона, Клоппера-Пирсона и нового псевдосчётного регуляризованного бутстрапа, который особенно полезен при расчёте F1-меры. Для данных с вложенной структурой (например, несколько текстов от одного человека) необходима коррекция как на эффективный объём выборки, так и на соответствующее число степеней свободы.

Среди бутстрап-методов иерархический бутстрап оказался точнее кластерного, когда индивиды порождают умеренное количество текстов, но становится излишне консервативным, если текстов мало.

Работа призывает исследователей уделять больше внимания валидационному размеру выборки на этапе проектирования экспериментов и шире использовать адекватные доверительные интервалы. Это повысит прозрачность приложений машинного обучения и снизит риск ошибочных выводов.