SPSD: сжатие промптов на периферии снижает затраты облачных LLM без потери качества

Исследователи из международной группы предложили новый метод SPSD (Sentiment Preserving Semantic Distillation) для сжатия пользовательских промптов на периферийных устройствах перед отправкой в облачные большие языковые модели (LLM). Работа опубликована на arXiv.

Авторы отмечают, что значительная часть промптов в потребительских и диалоговых сценариях содержит социальную обёртку: вежливые формы, извинения, повторения — важные для человеческого общения, но несущие мало информации для машинного рассуждения. Этот разрыв назван социально-семантическим разрывом.

SPSD использует малую языковую модель (SLM) размером 4 бита, работающую на устройстве пользователя, чтобы извлекать суть запроса, сохраняя эмоциональную окраску. После сжатия промпт передаётся в облачную LLM для генерации ответа. Критически важные с точки зрения безопасности запросы обрабатываются в обход сжатия.

В экспериментах использовалась SLM Gemma-2-2B-Instruct с квантизацией Q4_K_M и оценка на облачной модели Llama-3.1-8B-Instruct. На корпусе из 248 промптов средняя экономия составила 99,9 токена на вызов, при этом все 146 сжатых вызовов дали положительный эффект.

Качество ответов оценивалось с помощью слепого судейства LLM: 43 % пар признаны ничьими, 28 % — победа сжатого варианта, 29 % — победа исходного. Разница не превысила заранее установленный порог в 1 балл по 15-балльной шкале. Косинусная близость показала среднее значение 0,682, медиану 0,712.

Оценка энергопотребления показала экономию от 70 до 270 микроватт-часов на один вызов в зависимости от сценария. По мнению исследователей, SPSD демонстрирует практическую возможность снижения затрат на облачные LLM за счёт предварительной обработки на устройстве без ущерба для качества ответов.