PlanningBench: фреймворк для генерации проверяемых планировочных данных улучшает LLM
Планирование — одна из ключевых способностей, необходимых большим языковым моделям (LLM) для решения сложных задач. Однако существующие бенчмарки часто используют фиксированные наборы данных, что ограничивает разнообразие сценариев и не позволяет гибко контролировать сложность. Новая работа на arXiv представляет PlanningBench — фреймворк, позволяющий генерировать масштабируемые и автоматически проверяемые планировочные данные.
PlanningBench начинается с реальных сценариев планирования и обобщает практические рабочие процессы в структурированную таксономию, включающую более 30 типов задач, подзадач, семейств ограничений и факторов сложности. На основе этой таксономии авторы построили конвейер синтеза, управляемый ограничениями, который создаёт самодостаточные планировочные задачи с адаптивным контролем сложности, фильтрацией качества и пошаговыми чек-листами верификации.
С помощью PlanningBench были протестированы как открытые, так и проприетарные LLM. Результаты показали, что даже передовые модели с трудом создают полные решения при наличии связанных ограничений. Это указывает на существующий пробел в способностях планирования у современных ИИ-систем.
Помимо оценки, исследователи применили данные PlanningBench для обучения с подкреплением (RL). Дообучение на верифицированных планировочных данных улучшило производительность моделей не только на невиданных ранее планировочных бенчмарках, но и на более широких задачах следования инструкциям. Анализ показал, что детерминированные или чётко определённые оптимальные решения дают более ясный сигнал вознаграждения и обеспечивают стабильную динамику обучения.
Таким образом, PlanningBench предоставляет контролируемый источник данных для диагностики и улучшения общих способностей планирования у LLM. По мнению авторов, сдвиг от фиксированных коллекций к управляемой генерации делает бенчмаркинг более гибким и репрезентативным для реальных сценариев.


