MindLoom: новый метод генерации данных для обучения ИИ рассуждениям

Группа исследователей представила MindLoom — фреймворк для синтеза данных, нацеленный на улучшение способностей больших языковых моделей (LLM) к сложным рассуждениям. Работа опубликована в репозитории arXiv.

Авторы исходят из того, что трудность задачи определяется набором атомарных преобразований знаний, называемых «режимами мысли» (thought modes). MindLoom разлагает решения сложных задач на такие цепочки, выявляя логику их построения.

На основе этого строится ретривер, который сопоставляет состояния задачи с подходящими режимами мысли. При генерации новых задач система итеративно применяет найденные режимы к исходным вопросам, обеспечивая разнообразие покрываемых рассуждений.

Для оценки качества используется этап «роллаута»: сгенерированные примеры ранжируются по сложности, а правильные ответы помечаются для дальнейшего обучения. Такой подход позволяет контролировать уровень сложности синтезируемых данных.

MindLoom протестировали на девяти бенчмарках, охватывающих STEM-дисциплины и математические задачи. Модели, дообученные на данных MindLoom, показали результаты выше базовых, а также превзошли методы дистилляции и работу с внешними датасетами.

Аблационные эксперименты подтвердили вклад каждого компонента фреймворка. Дополнительный анализ показал, что MindLoom генерирует широкий спектр паттернов рассуждений, сохраняя контроль над сложностью.

Исходный код проекта опубликован в открытом доступе на GitHub, что позволяет другим исследователям воспроизводить и развивать методику.