ИИ OPINE-World осваивает игры, программируя модели мира на ходу
Мир искусственного интеллекта постоянно ищет способы сделать обучаемые системы более адаптивными и эффективными. Традиционные глубокие нейросети требуют огромных объёмов данных и плохо переносят изменения условий. Альтернативный подход — синтез программных моделей, создаваемых LLM и уточняемых через контрпримеры. Однако ранее такие методы в основном работали с чётко заданной структурой объектов.
Исследователи представили OPINE-World — агента, который учится моделировать окружение в виде объектно-ориентированной программы непосредственно в процессе взаимодействия. Система объединяет двух кооперирующихся агентов: один действует в среде, второй пишет код модели, проверяет его на повторах и использует для планирования. Ключевая инновация — байесовская мера адекватности типов объектов, названная «онтологической ошибкой», которая направляет исследование.
Тестирование проводилось на известном бенчмарке ARC-AGI-3, который проверяет способность к быстрому приобретению навыков. В этом бенчмарке игроку не сообщается словарь объектов, цель и правила действий — всё нужно выяснить самостоятельно. OPINE-World справился с 20 из 25 игр, не проходя отдельного обучения под каждую задачу.
Достигнутая эффективность по числу действий составила 78,4% от человеческого эталона. Это значительно превосходит результаты чистого обучения с подкреплением на глубоких сетях, требующих миллионов шагов. Программные модели оказались не только компактнее, но и легче переносятся на новые задачи, поскольку их можно редактировать и повторно использовать.
Разработчики отмечают, что OPINE-World решает проблему масштабирования программного синтеза на пиксельные среды, где объекты не размечены заранее. Агент сам выдвигает гипотезы о типе объектов и корректирует их по мере получения нового опыта. Это открывает путь к созданию более универсальных ИИ-систем, способных адаптироваться на месте.
Хотя работа находится на ранней стадии, она демонстрирует перспективность сочетания больших языковых моделей с индуктивным программированием. В перспективе такие агенты могут находить применение в робототехнике, автоматизации и играх, где нужно быстро учиться новым механикам.
Статья с полным описанием OPINE-World доступна на arXiv под номером 2607.01531.



