Tree-of-Thought: Исследование выявило неэффективность фиксированных стратегий поиска для LLM

В новом исследовании, опубликованном на arXiv, учёные сравнили два популярных метода рассуждения на основе Tree-of-Thought (ToT) для больших языковых моделей (LLM). Рассматривались методы DPTS (на основе поиска по дереву Монте-Карло) и SSDP (семантическая дедупликация). Оценка проводилась на математических бенчмарках Math500 и GSM8K для моделей Llama-3B и Llama-8B при бюджетах токенов от 3 тыс. до 10 тыс.

Результаты показали противоположные ограничения: DPTS испытывает «холодный старт» при малом бюджете — ему требуется достаточно итераций для оценки вероятностей, поэтому он неэффективен в ресурсно-ограниченных сценариях. При увеличении бюджета DPTS показывает хорошую масштабируемость.

Метод SSDP, напротив, быстро находит кандидатов, но страдает от «истощения фронта»: агрессивное слияние узлов удаляет неперспективные пути, и дальнейшее увеличение бюджета не улучшает результат. Таким образом, ни фиксированная стратегия исследования, ни фиксированная стратегия отсечения не работают во всём диапазоне вычислительных ресурсов.

Авторы подчёркивают, что для научных рассуждений нужны адаптивные стратегии, которые изменяют поведение в зависимости от прогресса поиска и доступных ресурсов. Исследование ставит под сомнение универсальность текущих ToT-методов и открывает путь к созданию гибридных подходов.

Работа выполнена на базе открытых языковых моделей Llama, что позволяет воспроизвести результаты. Ожидается, что выводы повлияют на разработку более гибких систем рассуждения в ИИ, особенно в прикладных областях, где вычислительный бюджет ограничен.