Метод DRIFT повышает верхнюю границу производительности LLM за счет оптимизации данных

Редакция RusNews 18-июн, 08:40 Наука 1 Искусственный интеллект

Научное сообщество получило новый инструмент для улучшения больших языковых моделей. Исследователи представили метод DRIFT (Data Refinement via On-Policy Influence Functions for Supervised Fine-Tuning), направленный на оптимизацию данных для тонкой настройки.

Стандартные подходы к отбору данных хорошо ускоряют обучение при ограниченном бюджете, но не способны поднять верхнюю границу возможностей модели. DRIFT решает именно эту задачу: он не просто выбирает подмножество, а уточняет распределение примеров в сторону наиболее полезных.

В основе метода лежат функции влияния (influence functions) на уровне отдельных примеров. Однако выяснилось, что стандартные IF страдают от двух недостатков: proximity gap из-за off-policy целей и сильного смещения к норме градиента. DRIFT использует on-policy rollout самой модели в качестве целей валидации — это уменьшает разрыв и лучше соответствует локальному приближению IF.

Дополнительно применяются signed weighting на основе правильности траектории и дебиасинг влияния против gradient hacking. Благодаря этому небольшой набор валидационных запросов становится надежным якорем для атрибуции всего набора данных.

Эксперименты на моделях размером 7B параметров (как для инструкций, так и для рассуждений) показали, что DRIFT последовательно повышает потолок производительности, превосходя существующие методы отбора данных.

Метод обещает улучшить качество тонкой настройки без увеличения объема данных, что важно для разработки более мощных и эффективных языковых моделей.

Метод DRIFT повышает верхнюю границу производительности LLM за счет оптимизации данных

Разделы

Навигация

Теги

Метод DRIFT повышает верхнюю границу производительности LLM за счет оптимизации данных

Читайте также

Разделы

Навигация

Теги