Новый алгоритм HPG повышает точность рекомендательных систем при маршрутизации запросов к моделям встраивания
Команда исследователей представила новый подход к маршрутизации запросов в рекомендательных системах. Алгоритм Hypentropy Policy Gradient (HPG) решает задачу выбора подходящей модели встраивания для каждого запроса в условиях неполной информации.
Современные рекомендательные системы часто используют несколько моделей встраивания, каждая из которых работает в собственном низкоранговом пространстве. Однако динамический выбор модели для каждого запроса остаётся сложной задачей из-за ограниченной наблюдаемости и возможных атак пользователей.
Авторы формализовали маршрутизацию как контекстуальный линейный бандит с низкоранговыми экспертами. Они показали, что стандартные метрики регрета не работают, и предложили новый класс политик с логарифмической квадратичной сложностью.
Алгоритм HPG использует градиентную оптимизацию для адаптации к неизвестной низкоранговой структуре. Он достигает линейного регрета порядка O(s?(MT)), где s — ранг экспертов, M — число моделей, T — число раундов. Это означает, что алгоритм эффективно масштабируется без экспоненциального роста сложности.
Разработчики также предоставили вычислительно эффективную реализацию HPG без необходимости точной настройки гиперпараметров. Это делает метод применимым на практике.
Работа опубликована на arXiv и представляет интерес для специалистов по рекомендательным системам и онлайн-обучению. Новый алгоритм может улучшить качество рекомендаций в сервисах с большим числом пользователей и товаров.


