Новый фреймворк для персонализации LLM на этапе инференса преодолевает сбои масштабирования
Научная работа, опубликованная на arXiv, предлагает новый взгляд на персонализацию больших языковых моделей (LLM). Вместо традиционного подхода, ориентированного на улучшение самих моделей или входных данных, исследователи сосредоточились на этапе инференса — генерации нескольких кандидатов с последующим выбором лучшего с помощью персонализированной модели вознаграждения.
Авторы доказали, что при идеальном выборе (оракуле) ожидаемая полезность растёт логарифмически с числом сэмплов, что задаёт теоретический потолок для масштабирования на этапе тестирования. Однако стандартные модели вознаграждения не достигают этого потенциала.
Чтобы понять причину, исследователи вывели единый закон масштабирования, который разлагает кривую Best-of-N для любой модели вознаграждения на четыре измеримые величины. Это позволило выявить два основных режима сбоя: коллапс на уровне пользователя (почти постоянное предсказание для некоторых пользователей) и хакерство вознаграждения на уровне запроса (отрицательная корреляция с истинным качеством для некоторых запросов).
На основе этого закона была разработана вероятностная персонализированная модель вознаграждения, в которой обученная дисперсия эффективно смягчает оба режима сбоя. Эксперименты подтвердили, что предложенный метод обеспечивает стабильное масштабирование TTP для различных политик и задач генерации персонализированного текста.
Результаты работы открывают путь к более эффективному использованию вычислительных ресурсов при персонализации LLM, что особенно актуально для приложений, требующих адаптации под конкретного пользователя. Закон масштабирования, выведенный авторами, точно соответствует наблюдаемым кривым для разных вариантов моделей вознаграждения.



