SemantiClean: аудируемый ИИ для e-commerce с прозрачным анализом

Научная группа опубликовала описание фреймворка SemantiClean, предназначенного для структурированного анализа поведенческих данных в электронной коммерции. Работа размещена на arXiv и описывает модульную архитектуру, которая ставит во главу угла прозрачность принимаемых решений.

В основе SemantiClean — четырехуровневая структура, включающая функциональный слой, слой взаимодействий, системный и контекстный. Всего выделено 24 поведенческих элемента, которые система извлекает из сессионных данных. Такой подход позволяет не только прогнозировать намерения покупателя, но и объяснять, на основании каких именно сигналов сделан вывод.

Ключевая особенность фреймворка — приоритет аудируемости над максимальной точностью. Разработчики утверждают, что SemantiClean сознательно жертвует небольшим приростом в точности ради воспроизводимости и возможности построения защищённых цепочек решений. Для этого внедрены три механизма борьбы с инфляцией сигналов: ограничение вклада избыточных групп признаков, штрафы за смещение и холодный старт для новых пользователей.

Дополнительно реализован LLM-интегрированный движок вывода, который работает в два этапа и использует полную метаданные элементов. Детерминированные компоненты движка полностью воспроизводимы (sigma=0). Результаты, зависящие от языковой модели, имеют контролируемую вариативность при фиксированных настройках провайдера, модели и температуры. Текущая реализация не включает вывод по полу, этот модуль отключён.

По мнению авторов, SemantiClean предлагает баланс между точностью и прозрачностью, что особенно важно для бизнеса, где решения должны быть объяснимыми и проверяемыми. Фреймворк может применяться для сегментации клиентов, определения покупательских намерений и анализа предпочтений.