ИИ-агенты на основе языковых моделей помогают расшифровать механизмы работы нейросетей

Механистическая интерпретируемость нейросетей достигла успехов в автоматической локализации функциональных схем (circuits), однако объяснение назначения выделенных компонентов остаётся трудоёмким и плохо стандартизированным процессом. В новой работе исследователи предложили использовать языковые модели (LM) в качестве агентов для решения этой задачи.

Для изучения возможностей LM-агентов был создан бенчмарк AgenticInterpBench, включающий 84 полусинтетических схемы трансформеров со 163 аннотациями компонентов. На его основе разработан метод HyVE (Hypothesize, Validate, Explain), который анализирует каждый компонент в итеративном цикле: наблюдение, формирование гипотезы, каузальная валидация и итоговое объяснение.

HyVE способен генерировать как объяснения на уровне отдельных компонентов, так и описание задачи всей схемы. Тестирование на четырёх различных LM-базовых моделях показало, что метод восстанавливает полезные объяснения, однако ни одна из базовых моделей не является однозначно лучшей. Анализ ошибок выявил, что сильные модели обычно формируют гипотезы на основе наблюдений, а сбои чаще происходят на этапе валидации — из-за неполных планов проверки, ошибок выполнения кода или неразрешённых гипотез.

В качестве примера работы метода авторы провели кейс-стади на арифметической схеме модели Llama-3-8B. Результаты показали, что HyVE применим не только к полусинтетическим тестам, но и к реально обученным моделям.

Исследователи заключают, что LM-агенты являются перспективными инструментами для автоматического объяснения схем в механистической интерпретируемости. Однако ключевым препятствием остаётся обеспечение надёжной валидации сгенерированных объяснений. Работа доступна в архиве препринтов arXiv.