Код не помогает: цепь рассуждений устойчивее к вариациям задач, чем выполнение кода

Исследователи изучили устойчивость больших языковых моделей (LLM) к изменениям в математических задачах. В работе, опубликованной на arXiv, сравнивались три подхода: чистая цепочка рассуждений (CoT), однократное выполнение кода (PAL) и итеративное выполнение кода (SBSC).

Для эксперимента использовался датасет GSM-Symbolic, содержащий 1000 задач. Каждая задача была представлена в оригинальном и модифицированном виде (с другими именами или числами). Модели запускались на обеих версиях, и оценивалась разница в точности.

Результаты показали, что CoT продемонстрировал наименьшее падение точности — всего 1,3 процентных пункта. При этом лишь 1,8% задач были решены неверно после изменения. PAL оказался наименее устойчивым: точность упала на 1,7 п.п., а 3,1% задач «сломались». SBSC занял промежуточную позицию.

Хотя различия не достигли статистической значимости (p = 0,096), направление тренда было единообразным по всем метрикам. Авторы делают вывод, что выполнение кода — будь то однократное или итеративное — не улучшает устойчивость рассуждений на уровне школьной математики.

Таким образом, для задач с возможными вариациями условий полагаться на генерацию кода не стоит. Чистая логическая цепочка оказывается более надёжным подходом, что важно учитывать при разработке образовательных и аналитических систем на основе LLM.