DynaSchedBench: калиброванный бенчмарк для DFJSP выявил парадокс наблюдаемости у LLM
Группа исследователей разработала новый диагностический инструмент для задачи динамического гибкого планирования цехов (DFJSP) — DynaSchedBench. Платформа решает методологическую проблему: статические бенчмарки ведут к переобучению, а некалиброванные генераторы вносят стохастический шум, мешающий оценке алгоритмов.
Авторы предложили Sequential Event-Space Calibrator (SESC) — модуль, который вычисляет индекс стресса расписания (SSI), позволяющий стратифицировать примеры по сложности. SESC оказался значительно эффективнее эволюционных методов при стабильной сходимости к целевым метрикам.
Платформа включает компоненты генерации примеров, симуляции на основе снимков состояния, тестирования агентов, оценки и визуализации. Это позволяет проверять как реактивные, так и прогнозные стратегии.
С помощью калиброванной среды авторы выявили ограничения LLM-агентов в динамическом планировании. Обнаружен «парадокс наблюдаемости»: предоставление агентам полной структурной информации может снижать качество принимаемых решений по сравнению с лаконичными данными.
Кроме того, несмотря на значительные затраты токенов, стратегии с инструментами и уточнением (refinement) не дают стабильного улучшения. Большинство LLM-агентов не смогли превзойти простые диспетчерские базовые линии и показали себя скорее как робастные эвристические аппроксиматоры, чем как оптимизаторы.
Таким образом, DynaSchedBench предоставляет исследователям удобный инструмент для честного сравнения подходов и выявления слабых мест LLM в оперативном планировании.


