Новый промпт NoT улучшает этические рассуждения ИИ, снижая коллапс стейкхолдеров
Как сообщается в препринте на arXiv, стандартная цепочка мыслей (Chain-of-Thought) при решении моральных дилемм страдает двумя недостатками: коллапсом стейкхолдеров (упоминается только одна затронутая сторона) и подавлением неопределённости (нет явных неизвестных перед принятием решения).
Для устранения этих проблем предложен метод Narration-of-Thought (NoT) — это системный промпт, который делит цепочку мыслей на пять секций: протагонист, стейкхолдеры, двухшаговые последствия, неопределённость и финальное обязательство. NoT не требует дополнительного обучения, параметров или тонкой настройки.
На 100 сценариях из набора DailyDilemmas, протестированных на четырёх моделях от трёх вендоров, NoT сократил коллапс стейкхолдеров с 31% до менее 1%, а подавление неопределённости — с 72% до 1–24% на каждой модели. Контрольный эксперимент с таким же бюджетом токенов, но без структуры (verbose-CoT) показал, что улучшение не связано с увеличением числа токенов.
Разбор компонентов (аblation) подтвердил, что каждый эффект вызван своей подынструкцией. Метод текстового градиентного спуска, инициализированного от NoT, дополнительно улучшает промпт, а использование межсемейного судьи (другой вендор) дало лучшие результаты на всех показателях.
В пятираундовом мультистейкхолдерном дебатном протоколе NoT превратил 6% неразрешённых споров в 95% полного консенсуса на калибровочном наборе и 100% комбинированной сходимости на репликации DailyDilemmas. Получающиеся цепочки явно показывают заинтересованные стороны, последствия и неопределённость, что создаёт проверяемую основу для надёжного развёртывания агентов.


