Gradient Transformer: дообучение LLM без доступа к данным

Научная работа, опубликованная на arXiv, представляет Gradient Transformer — новый подход к дообучению больших языковых моделей (LLM) без прямого доступа к приватным данным. Разработка решает давнюю проблему: многие организации не могут позволить себе ресурсоёмкое дообучение LLM, тогда как использование маленьких моделей (TinyLM) даёт низкое качество.

Суть метода — использование векторов обновлений (update vectors), которые представляют собой разницу между параметрами исходной модели и её версии, дообученной на конкретном наборе данных. Gradient Transformer преобразует векторы обновлений, полученные от маленькой модели, в аналогичные векторы для большой модели, сохраняя эффект дообучения.

Ключевое преимущество — работа с приватными данными. Организации могут дообучить TinyLM на своих данных, не раскрывая их, а затем передать только векторы обновлений третьей стороне, которая с помощью Gradient Transformer сгенерирует обновления для LLM. Это особенно важно для сфер со строгими требованиями к конфиденциальности.

Фреймворк также поддерживает совместную работу нескольких организаций: каждая вносит свои обновления от TinyLM, а Gradient Transformer объединяет их для улучшения LLM. Такой подход повышает эффективность и снижает затраты.

Эксперименты на задачах языкового моделирования и рассуждений (reasoning) показали, что Gradient Transformer превосходит современные методы дистилляции знаний, в том числе при использовании дифференциальной приватности для защиты данных. Результаты подтверждают, что модель способна точно улавливать корреляцию между обновлениями разных размеров.

Разработка может демократизировать доступ к мощным LLM для малого бизнеса и исследовательских групп, снимая барьеры по вычислительным ресурсам и конфиденциальности. Статья доступна в архиве arXiv под номером 2605.27591.