Новый метод CONCORD ускоряет RAG в 2 раза при изоляции документов
Retrieval-augmented generation (RAG) позволяет языковым моделям подключать внешние знания в момент вывода. С ростом популярности коллаборативных вычислений устройство-облако возник особый сценарий: приватные документы хранятся на устройстве пользователя, а публичные базы знаний — в облаке. Из соображений конфиденциальности и политик безопасности прямой обмен документами между сторонами запрещён, что создаёт задачу изолированного двухконцевого RAG.
Существующие решения для такого сценария полагаются на частую удалённую синхронизацию и плотную передачу эмбеддингов, что ограничивает пропускную способность в условиях реальных задержек и пропускной способности сети. Чтобы преодолеть это ограничение, группа исследователей представила CONCORD — асинхронную разреженную агрегацию для двухконцевого RAG.
В CONCORD облако выступает не как постоянно синхронизированный со-генератор, а как асинхронно поступающий источник эмбеддингов. Разработчики ввели механизм контроля долга ожидания (waiting debt control), который на каждом шаге декодирования решает, стоит ли ждать ответа от удалённой стороны, оценивая эффективность такого ожидания. Второй ключевой компонент — сертификатно-ориентированная минимальная подкачка (certificate-guided minimal supplementation), запрашивающая только те удалённые эмбеддинги, которые действительно необходимы для принятия текущего жадного решения.
Шаги, обращающиеся к облаку, сохраняют тот же жадный токен, что и при плотной двухконцевой агрегации, тогда как остальные шаги выполняются локально, без привлечения удалённых данных. Такой подход радикально сокращает объём передаваемой информации.
Эксперименты на наборах данных Natural Questions и WikiText-2 показали, что CONCORD увеличивает сквозную пропускную способность в 1,66 и 2,15 раза соответственно по сравнению с базовыми решениями. При этом объём коммуникации на токен уменьшается более чем на два порядка, а качество ответов (perplexity и точность) остаётся на сопоставимом уровне.
Разработка особенно актуальна для сценариев, требующих сохранения конфиденциальности, — например, в корпоративных системах или медицинских приложениях, где данные не могут покидать устройство. CONCORD показывает, что можно обеспечить высокую скорость инференса без ущерба для приватности и качества генерации.


