Новый метод замкнутого цикла позволяет точно диагностировать и исправлять слабые места LLM

Группа исследователей представила метод замкнутого цикла (closed-loop) для улучшения больших языковых моделей (LLM). Подход позволяет по результатам тестирования выявить конкретную причину снижения производительности и целенаправленно её устранить — за счёт корректировки данных или обучения.

В основе метода лежит понятие «среза способностей» (capability slice) — группы тестовых примеров, объединённых общими условиями, типом задачи, операцией решения и ограничением вывода. Это позволяет локализовать слабое место модели точнее, чем по названию бенчмарка, но стабильнее, чем по одному примеру. Вокруг таких срезов строится таксономия оценки, таксономия данных (не инструктивных) и правила сопоставления, образующие замкнутый цикл.

Метод проверен на двух противоположных кейсах. В первом случае continued pre-training привёл к падению бенчмарка BBH на 46,82%. Диагностика показала, что проблема не в ослаблении рассуждений, а в единственной маскированной ошибке потерь на токене . После её восстановления модель вернула результат 66,44 балла — выше исходной контрольной точки, без изменения данных.

Во втором случае устойчивое отставание в математических рассуждениях было разложено по операциям решения на конкретные проблемные комбинации. Целевая выборка данных, построенная на основе этого разложения, подняла результат модели на бенчмарках AIME2025 и AIME2026 с 6,67 и 0,00 до 26,67 баллов (Pass@128) на каждом.

Как отмечают авторы, один и тот же неизменный цикл пришёл к противоположным, но верным выводам в обоих случаях. Это показывает, что вывод от оценки к данным может быть рутинным, проверяемым и экспериментально подтверждённым, а не интуитивным.

Исследование размещено в открытом доступе на arXiv (ID: 2606.28471).