Микросервисная архитектура для документного AI: OCR оказался узким местом

Научные сотрудники опубликовали статью в arXiv, в которой описали микросервисную архитектуру для промышленного развёртывания систем понимания документов. В работе представлен подход, объединяющий классификацию, оптическое распознавание символов (OCR) и извлечение структурированных полей с помощью больших языковых моделей (LLM).

Основная задача исследования — закрыть разрыв между созданием моделей и их эксплуатацией в условиях высокой нагрузки. Предложенная архитектура обрабатывает тысячи многостраничных документов в час, используя гибридную классификацию и разделение GPU- и CPU-задач.

Ключевым результатом batch-профилирования стало неожиданное открытие: OCR, а не парсинг языковыми моделями, доминирует в общей задержке. Кроме того, система насыщается при определённом уровне параллелизма, ограниченном именно разделяемой ёмкостью GPU, а не количеством рабочих процессов.

Исследователи также отметили, что асинхронная обработка операций ввода-вывода и независимая горизонтальная масштабируемость позволили повысить пропускную способность. Эти выводы контрастируют с типичными ожиданиями разработчиков, часто фокусирующихся на оптимизации LLM.

Практическое значение работы заключается в предоставлении конкретных архитектурных паттернов для построения документных AI-систем, работающих в реальных производственных условиях. Полученные данные помогают инженерам точнее распределять ресурсы и выявлять узкие места до развёртывания.

Таким образом, публикация показывает, что для эффективного операционализации моделей недостаточно фокусироваться только на алгоритмических улучшениях — важна правильная инфраструктура и профилирование полного пайплайна.