PlanningBench: фреймворк для генерации проверяемых планировочных данных улучшает LLM

Редакция RusNews 22-май, 09:46 Наука 1 Искусственный интеллект

Планирование — одна из ключевых способностей, необходимых большим языковым моделям (LLM) для решения сложных задач. Однако существующие бенчмарки часто используют фиксированные наборы данных, что ограничивает разнообразие сценариев и не позволяет гибко контролировать сложность. Новая работа на arXiv представляет PlanningBench — фреймворк, позволяющий генерировать масштабируемые и автоматически проверяемые планировочные данные.

PlanningBench начинается с реальных сценариев планирования и обобщает практические рабочие процессы в структурированную таксономию, включающую более 30 типов задач, подзадач, семейств ограничений и факторов сложности. На основе этой таксономии авторы построили конвейер синтеза, управляемый ограничениями, который создаёт самодостаточные планировочные задачи с адаптивным контролем сложности, фильтрацией качества и пошаговыми чек-листами верификации.

С помощью PlanningBench были протестированы как открытые, так и проприетарные LLM. Результаты показали, что даже передовые модели с трудом создают полные решения при наличии связанных ограничений. Это указывает на существующий пробел в способностях планирования у современных ИИ-систем.

Помимо оценки, исследователи применили данные PlanningBench для обучения с подкреплением (RL). Дообучение на верифицированных планировочных данных улучшило производительность моделей не только на невиданных ранее планировочных бенчмарках, но и на более широких задачах следования инструкциям. Анализ показал, что детерминированные или чётко определённые оптимальные решения дают более ясный сигнал вознаграждения и обеспечивают стабильную динамику обучения.

Таким образом, PlanningBench предоставляет контролируемый источник данных для диагностики и улучшения общих способностей планирования у LLM. По мнению авторов, сдвиг от фиксированных коллекций к управляемой генерации делает бенчмаркинг более гибким и репрезентативным для реальных сценариев.

PlanningBench: фреймворк для генерации проверяемых планировочных данных улучшает LLM

Разделы

Навигация

Теги

PlanningBench: фреймворк для генерации проверяемых планировочных данных улучшает LLM

Читайте также

Разделы

Навигация

Теги