Новый метод CLIPR учит ИИ учитывать скрытые предпочтения пользователей через короткий диалог

Большие языковые модели (LLM) всё чаще используются как модули рассуждения в самых разных приложениях. Однако они нередко сталкиваются с трудностями, когда нужно учесть не только явные цели, но и скрытые предпочтения пользователя — особенно в неоднозначных ситуациях. Существующие решения либо требуют многократного взаимодействия, либо не обобщают предпочтения на новые задачи.

В новой работе на arXiv исследователи предложили фреймворк CLIPR (Conversational Learning for Inferring Preferences and Reasoning). Он предназначен для обучения LLM выявлять скрытые предпочтения из ограниченного числа диалогов и применять их для дальнейшего принятия решений. Ключевая особенность CLIPR — формирование переносимых правил на естественном языке, которые можно использовать как в знакомых, так и в незнакомых контекстах.

Процесс обучения построен на адаптивной обратной связи: модель уточняет правила по мере получения новых данных от пользователя. Такой подход позволяет минимизировать количество взаимодействий — достаточно короткого диалога, чтобы система поняла, как именно человек хочет разрешать неоднозначные ситуации.

Эффективность CLIPR проверяли на трёх наборах данных и в пользовательском исследовании. Результаты показали, что фреймворк стабильно превосходит существующие методы по степени согласования решений с предпочтениями пользователя, а также снижает вычислительные затраты. Правила, полученные на одном типе задач, успешно переносились на другие, что подтверждает их универсальность.

Авторы отмечают, что CLIPR может быть особенно полезен в приложениях, где требуется быстрая персонализация без длительного обучения, например, в виртуальных ассистентах, системах рекомендаций или интеллектуальной поддержке принятия решений. Дальнейшие исследования планируется направить на масштабирование метода и работу с более сложными сценариями.