Новый фреймворк для LLM-агентов обеспечивает безопасный и верифицируемый сбор данных в открытом вебе

Исследователи опубликовали в arXiv preprint описание нового фреймворка, предназначенного для безопасного и верифицируемого сбора данных из открытых веб-источников с использованием больших языковых моделей (LLM). Разработка решает проблему ненадёжности прямого генерации кода для веб-скрапинга из-за ошибок зависимостей, неверных селекторов, несоответствия схем и неоднородной структуры страниц.

Авторы предложили перейти от формирования свободного кода к типизированным конфигурациям в формате JSON. Фреймворк включает в себя таксономию из шести типов коллекторов, шаблоны и ограничения для служебных функций, статическое выполнение в виде DAG на Airflow, проверку качества на основе правил и структурированную обратную связь для исправления ошибок.

Эксперименты на 138 задачах показали, что таксономия успешно поддерживает типизацию требований на основе описания. При этом стабильное создание коллекторов требует заполнения источников, полей и ограничений выполнения помимо начального описания. На 80 независимо верифицированных задачах фреймворк работал с нулевым потреблением токенов LLM на этапе выполнения и самым низким средним временем.

Авторы отмечают, что решение жертвует качеством одноразового запроса в пользу многократно используемого, детерминированного и верифицируемого выполнения, подходящего для регулярного сбора данных. Фреймворк позиционируется как недорогой и проверяемый путь для повторяющихся задач сбора информации из открытого веба.

Разработка может найти применение в аналитике, мониторинге цен, новостных агрегаторах и других областях, требующих периодического обновления данных из внешних источников. В отличие от прямого вызова LLM, новый подход гарантирует предсказуемость и снижает операционные риски.