Выявлены скрытые сбои при квантизации LLM: решение снижает потерю точности до 0.43%

Квантизационное обучение с низкоразрядными форматами с плавающей запятой позволяет эффективно развертывать большие языковые модели, но может вызывать скрытые сбои, невидимые для стандартных метрик обучения. Исследователи изучили HiF8 W8A8 QAT для модели OpenPangu-Embedded-1B через призму задержанного масштабирования тензоров (DTS).

В восьми контролируемых экспериментах авторы выделили два ортогональных режима отказа: насыщение amax, при котором задержанные оценки масштаба незаметно искажают чувствительные к знаниям представления через отсечение при прямом проходе, и катастрофическое забывание, когда агрессивная скорость обучения перезаписывает предобученные знания независимо от квантизации.

Ни один из этих сбоев не обнаруживается по потере обучения. Для борьбы с насыщением amax предложена консервативная стратегия DTS на основе max-алгоритма с окном истории в 64 шага. Катастрофическое забывание смягчается 500-шаговым разогревом в BF16 с последующим QAT при скорости обучения 10^{-5}.

Оба исправления оказались необходимыми и достаточными: итоговая конфигурация показала падение точности на MMLU всего на 0,43%, на HellaSwag — 0,58% и на ARC-Challenge — 0,22% по сравнению с эталоном BF16. Потери обучения составили всего 0,11% за 10 000 шагов.

Результаты подчеркивают важность учета скрытых механизмов сбоев при квантизационном обучении LLM. Предложенные решения могут быть адаптированы для других моделей и форматов, повышая надежность развертывания.