Новый метод оптимизации промптов повысил точность AI-агентов с 51% до 60%
Команда исследователей представила новый фреймворк Contrastive Reflection для оптимизации промптов агентов на основе больших языковых моделей (LLM) в задачах информационного поиска. Работа опубликована на arXiv и предлагает итеративный подход, напоминающий отладку, а не слепой поиск.
В основе метода лежит контрастивный анализ: система выявляет сбойные поведенческие срезы, добавляет близкие успешные примеры из той же области и просит LLM-учителя предложить целевую правку промпта. Кандидаты принимаются только при улучшении валидационной метрики.
На публичном наборе данных HotpotQA для retrieval-augmented QA фреймворк повысил точность точного совпадения (EM) с 51.4% до 60.4% за одну итерацию. Для сравнения: оптимизатор MIPROv2 дал 59.4%, а GEPA — 57.0%.
Варианты без контрастивности — с исправлением только ошибок или со случайными примерами — показали меньший прирост и чаще ломали ранее правильные ответы. Таким образом, ключевым элементом оказалась именно контрастивная выборка.
Авторы подчеркивают, что их вклад — сам цикл контрастивной рефлексии, а не конкретный селектор срезов (в прототипе используется дерево). Это делает процесс оптимизации более интерпретируемым и управляемым за счет проверки регрессий.
Разработка ориентирована на практиков: инженеры теперь могут видеть, какое поведение отказало, какое сработало, и проверять, не ухудшает ли правка другие аспекты. Метод обещает ускорить доводку промптов для поисковых и вопросно-ответных систем.




