Автоматизация тестирования нейросетей: ИИ генерирует сложные задачи для оценки реляционного мышления
Исследователи из проекта Auto-World предложили способ автоматизации создания бенчмарков для нейросетей, проверяющих их способность к реляционному мышлению. Работа опубликована на arXiv и представляет собой шаг к автономному исследованию этого направления.
Проблема заключается в том, что нейронные модели часто не справляются с задачами, которые сложнее тех, что встречались во время обучения, особенно когда требуется применять изученные знания к новым структурам. Оценивать такое обобщение сложно, так как заранее непонятно, какие примеры действительно трудны.
Новый метод использует большие языковые модели для автоматической генерации усложняющихся тестовых примеров. Сначала задается мир с помощью правил Datalog, а затем с помощью LLM-управляемого эволюционного поиска (на базе FunSearch) и автономного агентного поиска находятся функции выборки, которые порождают сложные экземпляры задач.
В качестве оценщика способности к реляционному рассуждению применяется Edge Transformer. Исследователи показали, что обучение на сгенерированных трудных примерах улучшает обобщение модели на дальнейшие возмущения данных.
Также продемонстрировано, что тот же механизм может работать и с новыми мирами, предложенными самими языковыми моделями. Это открывает путь к полностью автономным исследованиям нейронного реляционного рассуждения.
По мнению авторов, такой подход не только ускоряет создание бенчмарков, но и позволяет выявлять скрытые слабости моделей, которые не видны при ручном подборе тестов. В перспективе это может привести к созданию более универсальных архитектур нейросетей.
Работа выполнена в рамках исследовательского проекта, ориентированного на развитие методов автоматического тестирования и анализа нейросетевых моделей.


