Новый метод обучения ИИ: отрицательная фильтрация токенов вместо групп

Редакция RusNews 17-июн, 13:09 Наука 1 Искусственный интеллект

В новом препринте на arXiv исследователи предложили альтернативу традиционным групповым подходам в обучении с подкреплением (RL) для больших языковых моделей. Метод, названный negative token filtering, позволяет отказаться от генерации нескольких вариантов ответа на один вопрос.

Существующие critic-free методы RL обычно формируют группу роллаутов для одной задачи, чтобы оценить базовые значения для вычисления преимущества. Однако такой подход требует много данных, сталкивается с проблемами синхронизации и плохо адаптируется к структурированным роллаутам.

Авторы работы показали, что основная функция группы — не столько оценка базовых значений, сколько предотвращение ложных штрафов на негативных примерах. На основе этого открытия они разработали стратегию отрицательной фильтрации токенов, которая позволяет стабильно обучать модель с одним роллаутом.

Метод применили к двум пакетным алгоритмам вычисления преимущества. На задачах рассуждения он показал сопоставимую производительность с групповыми методами, а на агентных задачах — превзошёл их.

Исследование размещено на arXiv и может повлиять на практику пост-тренировки LLM, снижая вычислительные затраты и упрощая инфраструктуру.

Новый метод обучения ИИ: отрицательная фильтрация токенов вместо групп

Разделы

Навигация

Теги

Новый метод обучения ИИ: отрицательная фильтрация токенов вместо групп

Читайте также

Разделы

Навигация

Теги