SPSD: сжатие промптов на периферии снижает затраты облачных LLM без потери качества

Редакция RusNews 19-июн, 08:48 Наука 1 Искусственный интеллект

Исследователи из международной группы предложили новый метод SPSD (Sentiment Preserving Semantic Distillation) для сжатия пользовательских промптов на периферийных устройствах перед отправкой в облачные большие языковые модели (LLM). Работа опубликована на arXiv.

Авторы отмечают, что значительная часть промптов в потребительских и диалоговых сценариях содержит социальную обёртку: вежливые формы, извинения, повторения — важные для человеческого общения, но несущие мало информации для машинного рассуждения. Этот разрыв назван социально-семантическим разрывом.

SPSD использует малую языковую модель (SLM) размером 4 бита, работающую на устройстве пользователя, чтобы извлекать суть запроса, сохраняя эмоциональную окраску. После сжатия промпт передаётся в облачную LLM для генерации ответа. Критически важные с точки зрения безопасности запросы обрабатываются в обход сжатия.

В экспериментах использовалась SLM Gemma-2-2B-Instruct с квантизацией Q4_K_M и оценка на облачной модели Llama-3.1-8B-Instruct. На корпусе из 248 промптов средняя экономия составила 99,9 токена на вызов, при этом все 146 сжатых вызовов дали положительный эффект.

Качество ответов оценивалось с помощью слепого судейства LLM: 43 % пар признаны ничьими, 28 % — победа сжатого варианта, 29 % — победа исходного. Разница не превысила заранее установленный порог в 1 балл по 15-балльной шкале. Косинусная близость показала среднее значение 0,682, медиану 0,712.

Оценка энергопотребления показала экономию от 70 до 270 микроватт-часов на один вызов в зависимости от сценария. По мнению исследователей, SPSD демонстрирует практическую возможность снижения затрат на облачные LLM за счёт предварительной обработки на устройстве без ущерба для качества ответов.

SPSD: сжатие промптов на периферии снижает затраты облачных LLM без потери качества

Разделы

Навигация

Теги

SPSD: сжатие промптов на периферии снижает затраты облачных LLM без потери качества

Читайте также

Разделы

Навигация

Теги