ReElicit: новый метод байесовской оптимизации системных промптов

Настройка системных промптов — одна из ключевых задач при работе с большими языковыми моделями. Однако если обратная связь поступает только в виде агрегированных метрик (например, точность на наборе тестов), а не в виде разметки каждого ответа, процесс оптимизации существенно усложняется. Новая работа, представленная на arXiv, предлагает решение этой проблемы.

Авторы разработали фреймворк ReElicit, основанный на байесовской оптимизации. Его суть — в том, что языковая модель сама формирует компактное и интерпретируемое пространство признаков на основе описания задачи, ранее протестированных промптов и полученных оценок. Это пространство позволяет представить каждый промпт в виде вектора признаков.

Далее в дело вступает вероятностный суррогат в виде гауссовского процесса. Он моделирует зависимость между векторами признаков и агрегированной метрикой. Функция приобретения выбирает новые целевые векторы, а затем LLM преобразует их в готовые к использованию системные промпты.

Ключевая особенность ReElicit — возможность перестроить пространство признаков по мере поступления новых данных. Это позволяет адаптировать представление к накопленной истории оценок. Таким образом, система постоянно уточняет понимание того, какие признаки действительно важны для качества промпта.

Эффективность метода проверили на десяти задачах оптимизации системных промптов. Бюджет оценки составлял всего 30 попыток. ReElicit показал лучший профиль агрегированной производительности среди всех протестированных «агрегатных» методов оптимизации. Результаты свидетельствуют, что языковые модели могут выступать не только генераторами промптов, но и адаптивными построителями семантических представлений для байесовской оптимизации.

Разработка может найти применение в автоматической настройке чат-ботов, генеративных систем и других ИИ-решений, где прямая разметка каждого ответа затруднена.