LBW-Guard: новый алгоритм управления обучением LLM сократил время на 10% и снизил перплексию на 18%
Научная группа опубликовала в arXiv статью, описывающую новый подход к управлению обучением больших языковых моделей (LLM) — LBW-Guard (Learn-by-Wire Guard). Метод представляет собой надстройку над оптимизатором AdamW, которая в реальном времени отслеживает телеметрию обучения и применяет ограниченное управление для предотвращения нестабильности.
В отличие от замены оптимизатора, LBW-Guard сохраняет фиксированные цели обучения, но вмешивается в работу AdamW в стрессовых режимах. Это позволяет избежать деградации моделей при высоких темпах обучения, больших масштабах и других экстремальных условиях.
Эксперименты проводились на наборе данных WikiText-103 с использованием моделей серии Qwen2.5 (3B, 7B и 14B), а также TinyLlama-1B в качестве проверки. Основные результаты получены на 7B-модели: финальная перплексия снизилась с 13,21 до 10,74 (улучшение на 18,7%), а общее время обучения сократилось с 392,54 до 357,02 секунд (ускорение в 1,10 раза).
Особенно заметен эффект при сильном стрессе по скорости обучения. При learning rate 3e-3 AdamW показал перплексию 1885,24, а LBW-Guard — 11,57. При LR=1e-3 AdamW дал 659,76, LBW-Guard — 10,33. Обычное клиппирование градиентов не воспроизводит этот эффект.
Авторы делают вывод, что стабильность обучения LLM может быть повышена за счёт введения управляющего слоя поверх оптимизатора. LBW-Guard демонстрирует, что ограниченное управление в рантайме позволяет сохранить продуктивность вычислений в стрессовых условиях и не требует замены оптимизатора или локального подавления градиентов.


