Новый метод Semi-CoT обучает рассуждения LLM на неразмеченных вопросах
Исследователи из arXiv представили Semi-CoT — метод полуконтролируемого обучения цепочек рассуждений (Chain-of-Thought) для больших языковых моделей (LLM). Обычно CoT требует размеченных примеров, но Semi-CoT позволяет использовать немаркированные вопросы, снижая затраты на сбор данных.
Авторы предложили генерировать для каждого неразмеченного вопроса несколько псевдо-цепочек рассуждений и оценивать энтропию ответов на уровне семантики. Цепочки с низкой энтропией считаются надежными и используются как псевдо-демонстрации для обучения. Таким образом, процесс выходит за рамки простого дообучения на размеченных данных и становится полуконтролируемым.
Эксперименты проводились на четырех датасетах: AQuA, SVAMP, GSM8K и MultiArith. Точность псевдо-ответов, отобранных через энтропийный фильтр, составила от 91,36% до 100% в зависимости от датасета. Это подтверждает, что модель способна сама генерировать качественные рассуждения без внешней разметки.
Однако итоговое улучшение производительности оказалось скромным. На SVAMP и GSM8K Semi-CoT дал небольшой прирост, на AQuA наблюдался отрицательный перенос, а на MultiArith результаты уперлись в потолок, не превысив показатели базового метода. Это указывает на ограничения текущей реализации: отбор демонстраций и процесс обучения студента нуждаются в доработке.
Тем не менее, работа открывает перспективы для полуконтролируемого обучения рассуждениям. Возможность использовать немаркированные данные может существенно расширить применимость CoT в реальных сценариях, где размеченные примеры редки или дороги.


