SemHash-LLM: мультигранулярный фреймворк для дедупликации документов на основе LLM

SemHash-LLM: мультигранулярный фреймворк для дедупликации документов на основе LLM

В новых вычислительных задачах дедупликация документов играет ключевую роль: она должна сохранять семантическую эквивалентность, одновременно оставаясь эффективной на огромных корпусах. Исследователи представили SemHash-LLM — многоуровневый фреймворк, объединяющий несколько подходов для точного и быстрого поиска дубликатов.

Метод использует семантическое проекционное хеширование: он обучает компактные бинарные коды в дистиллированном пространстве эмбеддингов LLM. Параллельно применяется MinHash с взвешиванием по вниманию для подавления шаблонного текста и выделения информативного содержания. Контрастное обучение границ и оценка неопределённости повышают устойчивость к различным искажениям: шаблонному загрязнению, изменению коротких текстов, вложенности и вирусным фрагментам.

Фреймворк объединяет сигналы на уровне символов, токенов и документов с помощью управляемого слияния, затем использует каскадный фильтр для эффективного сокращения числа кандидатов. Такой подход позволяет обрабатывать миллиарды документов, тратя нейросетевые ресурсы только на наиболее сложные случаи.

Эксперименты показали, что SemHash-LLM достигает высокой точности выявления дубликатов, при этом затраты на нейронную верификацию составляют менее одного процента от полного объёма. Это делает метод привлекательным для промышленного применения, где требуется баланс между качеством и производительностью.

По данным авторов, фреймворк превосходит существующие решения по устойчивости к атакам на темплейты и короткие тексты, а также эффективно справляется с частичным совпадением содержимого. Дополнительным преимуществом является адаптивность границ принятия решений, что позволяет настраивать систему под конкретные сценарии использования.

Работа опубликована на arXiv и может стать основой для новых систем дедупликации в поисковых движках, базах знаний и корпоративных хранилищах документов.