Новый метод обновления знаний LLM в потоке документов без переобучения

Современные LLM-вики-системы компилируют знания в предварительно заполненные KV-кэши для ускорения инференса, но предполагают статичность корпуса. Как только информационная среда меняется, такие системы устаревают. В новой работе на arXiv предложен метод Streaming Knowledge Compilation, решающий эту проблему.

Идея метода — proactive materiality-scored pinning: система заранее оценивает важность каждого документа для будущих запросов с помощью сигнала materiality ?_t(k,n). Этот сигнал выступает суррогатом релевантности запроса и позволяет выборочно закреплять документы в вики до поступления вопросов.

Теоретически доказана граница регрета O(?T log K), где ? — ожидаемая ошибка сигнала. Это гарантирует, что метод не отстаёт от оракула с идеальным предвидением.

Метод протестирован в двух областях. В финансах сигналом materiality служила аномальная волатильность акций, предсказанная замороженным классификатором на основе Llama 3.1 8B (AUROC 0,728 на 76 тыс. статей с временным разбиением). Для статей, помеченных как материал, реализованная будущая волатильность оказалась в 1,49 раза выше.

На Wikipedia сигналом выступил Abnormal Edit Ratio (AER) — нормализованная скорость редактирования. Оказалось, что один и тот же алгоритм работает и в финансах, и в энциклопедии, что подтверждает обобщаемость подхода.

Оценка end-to-end QA на 173 парах (финансы) и 119 (Wikipedia) выявила систематическую ошибку LLM-as-judge: модель склонна завышать оценки, если контент уже присутствует в её пост-тренировочных знаниях. Поэтому авторы считают анализ регрета, а не абсолютные QA-баллы, надёжным метриком для скомпилированных систем.

В финансах совокупный регрет сошёлся к -20,0 (-0,12 за шаг), на Wikipedia — к +16,0 (+0,13 за шаг). Положительный знак регрета на Wikipedia означает, что редактируемый контент действительно добавляет новые знания, которых не было в изначальной модели, и улучшает ответы (No Wiki 3,80 против Oracle 4,74).

Таким образом, Streaming Knowledge Compilation предлагает универсальный и теоретически обоснованный способ поддержания актуальности знаний в LLM-системах, работающих в потоковом режиме.