Новый метод P2D ускоряет тонкую настройку LLM в 7 раз при меньших данных

Редакция RusNews 23-май, 11:18 Наука 1 Искусственный интеллект

Группа исследователей представила фреймворк P2D (From Parameters to Data), объединяющий отбор данных и структурное сокращение внимания в единый процесс. Метод основан на гипотезе Strong Map Hypothesis: лишь небольшое подмножество attention-голов отвечает за адаптацию к конкретной задаче, выступая ключами к релевантным паттернам в данных.

P2D выявляет критические attention-головы с помощью легковесного прокси и использует их как функциональный фильтр для отбора высокоаффинных данных. Это создаёт синергетический конвейер, где параметры направляют выборку данных, а сокращение модели идёт параллельно.

Чтобы строго оценить стоимость всего конвейера, авторы ввели метрику Alignment Efficiency Ratio (AER), учитывающую как задержку выбора данных, так и время обучения. В экспериментах обновление всего 10% attention-голов на 10% данных дало прирост производительности на 8,3 процентного пункта относительно сильных базовых линий.

Сквозное ускорение процесса составило 7,0x – то есть настройка заняла в семь раз меньше времени. Это достигается за счёт точной синхронизации параметров и данных, исключающей избыточность.

Исследование показывает, что традиционное разделение этапов отбора данных и эффективной тонкой настройки неоптимально. Предложенный подход позволяет сократить вычислительные затраты без потери качества, что особенно актуально для адаптации больших языковых моделей под специализированные домены. Работа опубликована на arXiv.

Новый метод P2D ускоряет тонкую настройку LLM в 7 раз при меньших данных

Разделы

Навигация

Теги

Новый метод P2D ускоряет тонкую настройку LLM в 7 раз при меньших данных

Читайте также

Разделы

Навигация

Теги