Новый метод обучения ИИ: отрицательная фильтрация токенов вместо групп
В новом препринте на arXiv исследователи предложили альтернативу традиционным групповым подходам в обучении с подкреплением (RL) для больших языковых моделей. Метод, названный negative token filtering, позволяет отказаться от генерации нескольких вариантов ответа на один вопрос.
Существующие critic-free методы RL обычно формируют группу роллаутов для одной задачи, чтобы оценить базовые значения для вычисления преимущества. Однако такой подход требует много данных, сталкивается с проблемами синхронизации и плохо адаптируется к структурированным роллаутам.
Авторы работы показали, что основная функция группы — не столько оценка базовых значений, сколько предотвращение ложных штрафов на негативных примерах. На основе этого открытия они разработали стратегию отрицательной фильтрации токенов, которая позволяет стабильно обучать модель с одним роллаутом.
Метод применили к двум пакетным алгоритмам вычисления преимущества. На задачах рассуждения он показал сопоставимую производительность с групповыми методами, а на агентных задачах — превзошёл их.
Исследование размещено на arXiv и может повлиять на практику пост-тренировки LLM, снижая вычислительные затраты и упрощая инфраструктуру.


