Новый метод управления улучшает работу маленьких языковых моделей в сложных агентах

Исследователи представили новый подход к управлению компактными языковыми моделями в агентных системах. Работа опубликована на arXiv и описывает иерархический фреймворк, который решает проблему ненадёжного расширения промптов и ограничений при дообучении.

В агентных системах модели должны следовать протоколам, адаптироваться к меняющимся состояниям и работать с ограничениями по памяти, задержке и стоимости. Обычные методы, такие как увеличение контекста, ненадёжны, а дообучение затруднено из-за нехватки данных и вычислительных ресурсов.

Предложенный фреймворк включает два этапа. Сначала компактная модель дистиллируется для изучения требуемой схемы вывода. Затем запускается цикл контроля с участием «оракула» — более мощной модели, которая отслеживает валидность протокола и производительность, проецирует накопленные истории в допустимую область промптов и при необходимости инициирует дообучение.

Такой подход разделяет обучение схеме для совместимости и семантическую адаптацию для коррекции на уровне задачи. Авторы формализовали понятие области допустимых промптов и насыщения внимания, что позволило управлять эффективным состоянием промпта, а не полагаться на номинальную длину контекста.

Эксперименты проводились с использованием многокритериальной байесовской оптимизации в качестве контролируемого тестового сценария. Результаты показали, что новый метод снижает частоту отказов и повышает экономическую эффективность по сравнению с базовыми подходами, включая только дистилляцию или только дообучение.

Разработка может быть полезна для развёртывания компактных моделей в приложениях, где требуются низкая задержка, малый объём памяти и работа в реальном времени, например, в робототехнике или диалоговых системах.