Новый бенчмарк AGI Maze проверяет способность ИИ моделировать мир: LLMs проваливают простые лабиринты

Научная работа, опубликованная на arXiv, предлагает новый подход к тестированию больших языковых моделей (LLM) — бенчмарк AGI Maze. Авторы отмечают, что стандартный режим работы LLM — предсказание следующего токена на основе статичного контекста — не гарантирует формирования устойчивых и управляемых представлений о внешнем мире. Многие задачи, которые выглядят как «рассуждение» в тексте, становятся значительно сложнее в частично наблюдаемой среде, требующей памяти и гипотез о скрытых состояниях.

AGI Maze представляет собой лёгкий фреймворк для создания таких сред без необходимости в высокоразмерных сенсорных данных. Он включает набор задач на основе сетки-лабиринта с чистым API и несколькими уровнями сложности. Цель — создать бенчмарки, где агенты должны учиться использовать представления состояния мира, а не просто выводить локальное правило на основе доступных наблюдений.

В первоначальной оценке несколько стандартных LLM были протестированы на простых лабиринтах. Результаты показали, что модели не способны внутренне представлять лабиринт во время инференса. Даже базовый агент, которому разрешалось использовать историю сообщений как рабочую память для построения описаний наблюдений, не смог надёжно решать даже маленькие лабиринты в рамках шагового бюджета, более чем достаточного для человека.

Проблема, которую поднимают авторы, имеет прямое отношение к развитию искусственного общего интеллекта (AGI). Умение строить и обновлять модель мира — ключевой компонент для автономных агентов, действующих в реальных условиях. Текущие LLM, несмотря на впечатляющие успехи в генерации текста, демонстрируют фундаментальные ограничения при необходимости запоминать и структурировать информацию о скрытых состояниях.

AGI Maze призван стимулировать разработку новых архитектур и подходов, которые позволят агентам не просто «угадывать» следующий токен, а формировать полноценные внутренние представления. Фреймворк уже доступен для исследователей, и его простота позволяет быстро создавать разнообразные сценарии тестирования.

В долгосрочной перспективе такие бенчмарки могут стать важным инструментом для отслеживания прогресса в создании систем, способных к долгосрочному планированию и рассуждению о скрытых процессах. Пока же работа показывает: путь к AGI лежит не только через увеличение размера моделей, но и через решение проблем памяти и моделирования мира.