Latent Cache Flow: новый способ обмена данными между ИИ-агентами без текста
Современные ИИ-агенты общаются друг с другом с помощью текста, что приводит к задержкам и потере информации. Причина — необходимость декодировать состояние одной модели и повторно кодировать его для другой. Альтернативный подход — передача KV-кэшей через специальные адаптеры (Cache-to-Cache, C2C), но такие адаптеры велики, дороги в обучении и требуют идентичного контекста.
В новой работе на arXiv представлен метод Latent Cache Flow (LCF), решающий обе проблемы. Авторы обнаружили, что ключи и значения можно совместно переводить и сжимать, что уменьшает размер адаптера до 4% от размера C2C. Вместо того чтобы передавать каждый токен, LCF передаёт суммарную информацию, которой нет у принимающей модели.
Эксперименты показали, что LCF-адаптер объёмом 13 МБ превосходит по точности адаптер C2C размером 956 МБ в сценариях с общим контекстом. В ситуациях с разными контекстами LCF оказался на 23% точнее и в 8,5 раз быстрее по сравнению с текстовой коммуникацией.
По мнению исследователей, LCF открывает путь к более эффективному взаимодействию ИИ-агентов, особенно в задачах, где важна скорость и объём передаваемых данных. Метод не требует изменений в архитектуре самих моделей и может быть интегрирован в существующие системы.
Работа опубликована на сервере препринтов arXiv (ID: 2605.22863) и уже привлекла внимание сообщества разработчиков LLM.



