Автоматизация тестирования нейросетей: ИИ генерирует сложные задачи для оценки реляционного мышления

Редакция RusNews 25-июн, 07:41 Наука 1 Искусственный интеллект

Исследователи из проекта Auto-World предложили способ автоматизации создания бенчмарков для нейросетей, проверяющих их способность к реляционному мышлению. Работа опубликована на arXiv и представляет собой шаг к автономному исследованию этого направления.

Проблема заключается в том, что нейронные модели часто не справляются с задачами, которые сложнее тех, что встречались во время обучения, особенно когда требуется применять изученные знания к новым структурам. Оценивать такое обобщение сложно, так как заранее непонятно, какие примеры действительно трудны.

Новый метод использует большие языковые модели для автоматической генерации усложняющихся тестовых примеров. Сначала задается мир с помощью правил Datalog, а затем с помощью LLM-управляемого эволюционного поиска (на базе FunSearch) и автономного агентного поиска находятся функции выборки, которые порождают сложные экземпляры задач.

В качестве оценщика способности к реляционному рассуждению применяется Edge Transformer. Исследователи показали, что обучение на сгенерированных трудных примерах улучшает обобщение модели на дальнейшие возмущения данных.

Также продемонстрировано, что тот же механизм может работать и с новыми мирами, предложенными самими языковыми моделями. Это открывает путь к полностью автономным исследованиям нейронного реляционного рассуждения.

По мнению авторов, такой подход не только ускоряет создание бенчмарков, но и позволяет выявлять скрытые слабости моделей, которые не видны при ручном подборе тестов. В перспективе это может привести к созданию более универсальных архитектур нейросетей.

Работа выполнена в рамках исследовательского проекта, ориентированного на развитие методов автоматического тестирования и анализа нейросетевых моделей.

Автоматизация тестирования нейросетей: ИИ генерирует сложные задачи для оценки реляционного мышления

Разделы

Навигация

Теги

Автоматизация тестирования нейросетей: ИИ генерирует сложные задачи для оценки реляционного мышления

Читайте также

Разделы

Навигация

Теги