Новый метод ИИ-оптимизации: 235-миллиардная модель запущена на двух A100 с сокращением памяти на 75%
Исследователи из международного научного коллектива представили новую платформу для автоматизированного проектирования вычислительных систем, которая учитывает физические ограничения оборудования. В основе подхода — многолетний агентный движок, использующий эволюционное знание и граф прошлых научных инноваций. Как сообщается в статье на arXiv, система преобразует слепой стохастический поиск в направленную структурную эволюцию.
Применение к развёртыванию фундаментальных моделей ИИ позволило разработать два метода аппаратно-ориентированного сжатия: Q-Enhance и MoE-Salient-AQ. Первый снижает потерю точности на длинных контекстах в плотных моделях, второй — для разреженных архитектур Mixture-of-Experts — превзошёл лучшие ручные решения на 3,7% при разрядности ниже 3 бит.
На основе созданной системы авторы развернули модель с 235 миллиардами параметров на двух серверах NVIDIA A100. Благодаря использованию пропускной способности шины и специального профиля чувствительности удалось сократить требования к памяти на 75% с незначительным падением точности — всего 0,64%.
Как отмечается в работе, предложенный подход превращает неограниченный комбинаторный поиск в управляемую автономную эволюцию. Ключевой элемент — алгоритмическая цепочка рассуждений, извлекаемая из графа знаний, которая направляет процесс оптимизации.
Результаты демонстрируют возможность масштабирования больших моделей на ограниченном оборудовании без существенного ухудшения качества. Для индустрии это означает потенциальное снижение затрат на инфраструктуру и ускорение внедрения передовых ИИ-систем.
Работа выполнена в рамках развития направления hardware-software co-design — совместного проектирования аппаратного и программного обеспечения. Авторы планируют продолжить исследования в области автоматического поиска архитектур для других типов вычислительных платформ.


