Новый LLM-стек для борьбы с мошенничеством повысил пропускную способность в 6 раз
Крупные языковые модели (LLM) всё чаще применяются в борьбе с мошенничеством и отмыванием денег (AML), но их использование в комплаенсе требует иной архитектуры, чем обычные чат-боты. Исследователи из arXiv представили подход, учитывающий специфику таких ворклоадов: префиксно-тяжёлые промпты, жёсткие схемы вывода и необходимость работы с конфиденциальными данными.
Традиционные LLM-сервисы ориентированы на диалог, тогда как для AML-запросов характерны длинные повторяющиеся инструкции, таксономии рисков, контекст транзакций и краткие структурированные ответы (например, JSON-метки). Из-за этого ключевыми становятся такие механизмы, как повторное использование префиксов, эффективность KV-кэша, адаптация под runtime и оркестрация моделей.
Авторы предложили стек на базе открытых весовых моделей (Meta Llama и Alibaba Qwen) с использованием vLLM-подобной настройки, PagedAttention, автоматического кэширования префиксов, мультиадаптерного сервинга и пакетной обработки с учётом длины промптов и адаптеров. Также реализованы управление жизненным циклом (сон/пробуждение) и опциональная декомпозиция prefill/decode.
Для воспроизводимости экспериментов без раскрытия чувствительных данных исследователи преобразовали публичные синтетические AML-датасеты (IBM AML и SAML-D) в комплаенс-промпты с повторяющимися политиками, свидетельствами сделок и определениями типологий. Качество выходов оценивалось через LLM-as-judge с детерминированными проверками и калибровкой экспертов.
Результаты впечатляют: после оптимизации пропускная способность выросла с 612–650 до 3600 запросов в час, P99 латентность упала с 31–38 секунд до 6,4–8,7 секунд, а загрузка GPU поднялась с 12% до 78%. Авторы подчёркивают, что производительность LLM в регулируемых сценариях — это не только выбор модели, но и грамотное проектирование ворклоада, оптимизация сервинга и контроль качества.
Таким образом, новый подход демонстрирует, что при правильной архитектуре LLM способны эффективно обрабатывать специализированные запросы в сфере комплаенса, не уступая по скорости и надёжности традиционным системам.




