Принудительные JSON-схемы снижают точность малых моделей с 20% до 11% — исследование
Исследователи измерили влияние принудительных структурных ограничений на качество работы малых языковых моделей (SLM). В работе, опубликованной на arXiv, вводится понятие «налога на ограничения» (constraint tax) — потери правильности ответа при выполнении строгих схем вывода, таких как JSON или вызовы инструментов.
Эксперименты проводились на моделях Qwen2.5 (0,5B и 1,5B параметров) и SmolLM2-1.7B — типичных представителях класса «on-device» SLM, ориентированных на приватность и низкую задержку. Всего выполнено 15 тыс. генераций на обычных GPU.
Результаты показали, что при жестком декодировании только по схеме валидность JSON вырастает с 61,5% до 100%, однако точность ответов падает с 19,7% до 11,0%. Доля «неправильных, но формально корректных» выходов возрастает с 49,5% до 88,9%.
На примере задачи вызова календарного инструмента модель Qwen2.5-1.5B достигла 91,5% исполнительной точности при подсказке с JSON, но только 48,0% при жесткой схеме, хотя обе моды давали 100% валидность. Ошибки носят семантический, а не структурный характер.
Исследователи отмечают, что даже граница в 3 млрд параметров не спасает от «налога», а единственным конструктивным паттерном оказывается принцип «сначала свободное рассуждение, затем ограничение» — отложенная упаковка в схему.
Практический вывод: производственные системы, использующие малые модели, должны отдельно отслеживать точность ответа, исполнительную точность, валидность схемы и долю формально верных, но неверных по смыслу ответов. Простая опора на валидность JSON может вводить в заблуждение.


