Ученые предложили метод на основе GraphRAG для улучшения согласования ИИ-агентов с социальными ценностями

Исследователи из международного научного коллектива представили новый метод согласования ИИ-агентов на основе больших языковых моделей с социальными ценностями. Работа опубликована в архиве препринтов arXiv и описывает фреймворк, использующий графовый RAG (GraphRAG) для улучшения этического поведения моделей.

Авторы отмечают, что современные LLM-агенты часто демонстрируют недостатки в самопознании, принятии решений в дилеммах и проявлении эмоций. Существующие методы, базирующиеся на прямых подсказках, не всегда способны обеспечить стабильное соответствие ценностям.

Предложенный подход преобразует принципы в ценностно-ориентированные инструкции, которые привязываются к контексту разговора. GraphRAG позволяет извлекать релевантные инструкции на основе семантической близости и структурированных знаний о ценностях.

Для оценки эффективности ученые использовали две известные теории: пирамиду потребностей Маслоу и колесо эмоций Плутчика. Эти модели помогли определить ожидаемое поведение агентов в различных ситуациях.

Метод был протестирован на бенчмарке DAILYDILEMMAS, который включает повседневные этические дилеммы. Сравнение проводилось с несколькими современными подходами, включая ECoT, Plan-and-Solve и метакогнитивное подсказывание.

Результаты показали, что новый фреймворк значительно превосходит все baseline-методы по доле ожидаемого поведения. Это свидетельствует о более точном следовании социальным нормам и ценностям.

По мнению авторов, их работа создаёт основу для появления у ИИ-систем собственных эмоций в контролируемой форме. Дальнейшие исследования могут быть направлены на расширение набора ценностей и тестирование в реальных сценариях.