CAWI: новый метод инициализации весов улучшает точность рандомных нейросетей на 83 бенчмарках
Учёные представили новый алгоритм инициализации весов CAWI (Copula-Aligned Weight Initialization), предназначенный для рандомных нейросетей (RdNNs). Подход позволяет сохранить эффективность обучения без обратного распространения ошибки, но при этом учитывает корреляции между входными признаками.
Рандомные нейросети фиксируют случайно инициализированные веса на этапе преобразования входных данных в скрытое представление. Это даёт возможность аналитически находить параметры выходного слоя, что ускоряет обучение. Однако стандартная случайная инициализация игнорирует структуру данных: асимметрии, хвостовые зависимости и корреляции признаков. Как отмечают авторы, этот недостаток ранее не решался в литературе.
CAWI решает проблему за счёт сопоставления распределения весов с эмпирическим распределением данных. Сначала каждый признак преобразуется в единичный интервал с помощью эмпирической функции распределения. Затем подбирается многомерная копула, моделирующая ранговые зависимости между признаками. Из этой копулы семплируются столбцы весов, после чего к ним применяется обратное маргинальное преобразование. Целевая функция, решатель и принцип однократной фиксации весов остаются неизменными — меняется только закон выборки матрицы весов.
Для моделирования зависимостей рассматриваются два семейства копул: эллиптические (гауссова, t) и архимедовы (Клейтона, Франка, Гумбеля). Это позволяет охватить различные типы связей, включая хвостовые зависимости.
Эффективность CAWI проверили на 83 разнородных задачах классификации (бинарной и многоклассовой) и двух биомедицинских наборах данных: BreaKHis и Schizophrenia. Использовались как мелкие, так и глубокие архитектуры RdNN. Во всех экспериментах CAWI стабильно превосходил стандартную случайную инициализацию по точности прогнозов.
Исходный код метода опубликован на GitHub. Разработчики полагают, что CAWI может стать практичным улучшением для приложений, где важна скорость обучения и при этом необходимо учитывать зависимости в данных.


