Новый алгоритм ATOD повышает эффективность обучения языковых агентов

Исследователи опубликовали работу, в которой представили ATOD (Annealed Turn-aware On-policy Distillation) — новый алгоритм для обучения малых языковых моделей-агентов, способных выполнять длительные интерактивные задачи.

Традиционные методы, такие как дистилляция на политике (OPD), быстро улучшают модель на начальном этапе, но их эффективность падает при приближении к уровню учителя. С другой стороны, обучение с подкреплением (RL) позволяет достичь более высоких результатов за счёт исследования, но требует много времени из-за редких и запаздывающих наград.

ATOD объединяет преимущества обоих подходов с помощью аннилированного расписания: на ранних этапах доминирует дистилляция, а затем постепенно усиливается RL-компонента. Это позволяет сначала быстро освоить поведение учителя, а затем улучшить его за счёт исследования.

Ключевой элемент алгоритма — Turn-level Disagreement-Uncertainty Reweighting (T-DUR). Он взвешивает отдельные шаги диалога по их полезности, чтобы улучшить плотное обучение на длинных траекториях.

Эксперименты на трёх наборах задач — ALFWorld, WebShop и Search-QA — показали, что ATOD превосходит существующие методы. Для трёх размеров малых моделей средняя успешность повысилась на 3,03 пункта по сравнению с OPD и на 23,62 пункта по сравнению с GRPO. При этом ATOD превзошёл модели-учителя на 2,16 пункта.

Разработка открывает путь к созданию более эффективных автономных агентов на основе малых языковых моделей, способных работать в реальных сценариях с длинными диалогами и множеством шагов.