ИИ-агенты автоматизировали развёртывание LLM на AMD XDNA 2 NPU
Научная группа представила метод, который переводит процесс развёртывания больших языковых моделей (LLM) на пространственных NPU от AMD из ручного режима в автоматический. Работа опубликована на arXiv и описывает двухэтапный подход, реализованный на чипе AMD XDNA 2.
На первом этапе исследователи с помощью человека-оператора создали эталонное развёртывание модели Llama-3.2-1B. Полученная реализация показала ускорение в 2,2 раза на prefill и в 4,0 раза на decode по сравнению с оптимизированным вручную базовым вариантом. Весь процесс и полученные уроки были задокументированы в структурированном виде.
На втором этапе документация была преобразована в систему навыков для ИИ-агентов, состоящую из восьми фаз. Система оркестрирует наборы навыков по оптимизации и отладке, причём на каждой фазе строго проверяется численная корректность результатов.
С помощью этой системы агенты автономно развернули ещё восемь декодерных LLM: Llama-3.2-3B, SmolLM2-1.7B, Qwen2.5-0.5B, Qwen2.5-1.5B, Qwen2.5-3B, Qwen3-0.6B, Qwen3-1.7B и Qwen3-4B. Все модели запущены на AMD XDNA 2 NPU с использованием открытого компиляторного стека. По данным авторов, ранее эти модели не развёртывались на NPU от AMD через открытый стек.
Каждое развёртывание заняло от 0,5 до 4 часов агентного времени при практически полном отсутствии человеческого руководства. Все восемь моделей прошли проверки численной корректности, что демонстрирует функциональное обобщение на ранее не встречавшиеся LLM.
Три из восьми моделей достигли или превзошли производительность эталонного развёртывания Llama-3.2-1B. Это указывает на то, что полученные реализации могут быть конкурентоспособными без дополнительной ручной оптимизации под конкретную модель.
Разработка открывает путь к быстрому и энергоэффективному внедрению LLM на периферийных устройствах с NPU. Применение агентного подхода снижает трудозатраты и ускоряет вывод новых моделей на рынок.


