Новый промпт NoT улучшает этические рассуждения ИИ, снижая коллапс стейкхолдеров

Как сообщается в препринте на arXiv, стандартная цепочка мыслей (Chain-of-Thought) при решении моральных дилемм страдает двумя недостатками: коллапсом стейкхолдеров (упоминается только одна затронутая сторона) и подавлением неопределённости (нет явных неизвестных перед принятием решения).

Для устранения этих проблем предложен метод Narration-of-Thought (NoT) — это системный промпт, который делит цепочку мыслей на пять секций: протагонист, стейкхолдеры, двухшаговые последствия, неопределённость и финальное обязательство. NoT не требует дополнительного обучения, параметров или тонкой настройки.

На 100 сценариях из набора DailyDilemmas, протестированных на четырёх моделях от трёх вендоров, NoT сократил коллапс стейкхолдеров с 31% до менее 1%, а подавление неопределённости — с 72% до 1–24% на каждой модели. Контрольный эксперимент с таким же бюджетом токенов, но без структуры (verbose-CoT) показал, что улучшение не связано с увеличением числа токенов.

Разбор компонентов (аblation) подтвердил, что каждый эффект вызван своей подынструкцией. Метод текстового градиентного спуска, инициализированного от NoT, дополнительно улучшает промпт, а использование межсемейного судьи (другой вендор) дало лучшие результаты на всех показателях.

В пятираундовом мультистейкхолдерном дебатном протоколе NoT превратил 6% неразрешённых споров в 95% полного консенсуса на калибровочном наборе и 100% комбинированной сходимости на репликации DailyDilemmas. Получающиеся цепочки явно показывают заинтересованные стороны, последствия и неопределённость, что создаёт проверяемую основу для надёжного развёртывания агентов.