DynaSchedBench: калиброванный бенчмарк для DFJSP выявил парадокс наблюдаемости у LLM

Группа исследователей разработала новый диагностический инструмент для задачи динамического гибкого планирования цехов (DFJSP) — DynaSchedBench. Платформа решает методологическую проблему: статические бенчмарки ведут к переобучению, а некалиброванные генераторы вносят стохастический шум, мешающий оценке алгоритмов.

Авторы предложили Sequential Event-Space Calibrator (SESC) — модуль, который вычисляет индекс стресса расписания (SSI), позволяющий стратифицировать примеры по сложности. SESC оказался значительно эффективнее эволюционных методов при стабильной сходимости к целевым метрикам.

Платформа включает компоненты генерации примеров, симуляции на основе снимков состояния, тестирования агентов, оценки и визуализации. Это позволяет проверять как реактивные, так и прогнозные стратегии.

С помощью калиброванной среды авторы выявили ограничения LLM-агентов в динамическом планировании. Обнаружен «парадокс наблюдаемости»: предоставление агентам полной структурной информации может снижать качество принимаемых решений по сравнению с лаконичными данными.

Кроме того, несмотря на значительные затраты токенов, стратегии с инструментами и уточнением (refinement) не дают стабильного улучшения. Большинство LLM-агентов не смогли превзойти простые диспетчерские базовые линии и показали себя скорее как робастные эвристические аппроксиматоры, чем как оптимизаторы.

Таким образом, DynaSchedBench предоставляет исследователям удобный инструмент для честного сравнения подходов и выявления слабых мест LLM в оперативном планировании.