Учёные создали модульную архитектуру на LLM для выявления человеческих ценностей в тексте
Группа исследователей опубликовала в архиве препринтов arXiv работу, посвящённую выявлению человеческих ценностей в тексте с помощью больших языковых моделей (LLM). По мере роста автономности интеллектуальных систем всё более актуальной становится задача включения этических и моральных соображений в механизмы принятия решений, и для этого нужно оценивать, насколько действия систем соответствуют человеческим ценностям.
Предложенная архитектура состоит из трёх модулей. Первый генерирует структурированные спецификации ценностей на основе фундаментальных текстов любой теоретической рамки. Второй маркирует тексты, используя эти спецификации. Третий модуль присваивает оценку поддержки или сопротивления на основе риторических и семантических свидетельств.
Такой модульный дизайн позволяет отделить задачу концептуализации ценностей от их детекции. Процесс становится масштабируемым и воспроизводимым, а спецификации ценностей легко адаптируются под различные теории — от универсальных списков до культурно-специфичных систем.
Архитектура была протестирована с несколькими LLM на наборе данных ValueEval. Эксперименты продемонстрировали хорошую эффективность обнаружения ценностей, что подтверждает универсальность предложенного конвейера. По словам авторов, подход позволяет избежать ограничений предыдущих методов, которые были привязаны к конкретной теории ценностей или требовали сложного инжиниринга промптов.
Разработка может найти применение в модерации контента, анализе социальных сетей, оценке этичности решений ИИ и других областях, где важно понимание ценностных ориентиров в тексте.




