Новый метод DecomposeR улучшает планирование в LLM для глубоких исследований на 5–8 баллов
Группа исследователей представила DecomposeR — фреймворк для обучения больших языковых моделей (LLM) решению задач глубокого исследования. Существующие подходы либо используют короткие проверяемые вопросы как замену, либо обучают модели на цельных длинных траекториях, что затрудняет разделение этапов планирования и исполнения и даёт слабое подкрепление для процесса планирования. DecomposeR решает эту проблему, делая процесс планирования явным, структурированным и подкрепляемым.
Разработка использует направленные ациклические графы (DAG) для представления исследовательских планов. Это позволяет разбить задачу на отдельные ветви запросов и явно назначать вознаграждение за действия планировщика. В основе DecomposeR лежит модель Qwen3-8B (компании Alibaba), которая обучается в два этапа: сначала с помощью подкрепляющего обучения (RL) формируется навык построения графа запросов, затем — выполнение отдельных ветвей и синтез финального ответа.
По данным авторов, такой подход позволяет точнее оптимизировать планирование и уменьшает неоднозначность сквозного обучения. В ходе экспериментов DecomposeR-8B превзошёл сопоставимые открытые модели-базлайны на 5,1–8,0 баллов на популярных бенчмарках длинных ответов. Улучшения достигнуты как за счёт более качественного плана, так и за счёт лучшего синтеза ответов по отдельным ветвям.
Как отмечается в статье на arXiv, DecomposeR демонстрирует, что явное выделение этапа планирования и назначение вознаграждения за структуру графа существенно повышает качество глубокого исследования. Фреймворк может быть применён в системах автоматического анализа документов, научных обзоров и других задач, требующих многошагового поиска и обобщения информации.
Исследование является шагом в сторону более прозрачных и управляемых моделей ИИ, способных не только генерировать ответ, но и аргументировать ход своих рассуждений через структурированный план. Код и веса модели, вероятно, будут опубликованы авторами для дальнейшего развития открытых решений.


