Ученые выявили «потолок» пользы от многократного опроса ИИ: дальше только хуже
Языковые модели, решая сложные задачи, часто генерируют множество вариантов ответа — этот метод называется тест-тайм скейлингом. Логика проста: чем больше сэмплов, тем выше вероятность, что хотя бы один ответ окажется верным. Однако, как показало новое исследование на arXiv, эта стратегия имеет скрытый недостаток.
Учёные выявили феномен «потолка моды» (modal ceiling): после нескольких десятков сэмплов результат голосования среди вариантов перестаёт улучшаться. Последующие попытки лишь закрепляют модель в неверном ответе, увеличивая её уверенность в ошибке. При этом каждая лишняя генерация требует дополнительных вычислительных ресурсов.
Ключевая проблема — разрыв между покрытием (coverage) и выбором (selection). Покрытие — доля задач, для которых хотя бы один сэмпл даёт правильный ответ — действительно растёт с числом попыток. Но на практике система должна выдать один единственный ответ, и здесь прогресс быстро останавливается. Авторы назвали этот разрыв «идентификационным разрывом»: ответ существует, но модель не может его распознать.
Вместо бесконечного наращивания числа сэмплов исследователи предложили метрику «эффективное число сэмплов». Она показывает, на какой итерации дальнейшая генерация перестаёт приносить пользу. По их данным, для задач рассуждения эта точка наступает уже после нескольких десятков попыток, а для бенчмарков — ещё раньше.
Практический вывод: узким местом является не генерация, а распознавание правильного ответа. Разработчикам стоит сосредоточиться на улучшении механизмов отбора, а не на увеличении количества сэмплов. В противном случае масштабирование только повышает вычислительные затраты без улучшения качества.
Исследование подчёркивает, что больше не всегда значит лучше — особенно когда речь идёт о принятии решений в условиях неопределённости. Оптимальная стратегия заключается в том, чтобы научиться останавливаться вовремя.







