Исследование: тон запроса влияет на точность LLM – результаты четырех моделей
Новое исследование, опубликованное на arXiv, показало, что тон запроса влияет на точность ответов больших языковых моделей (LLM). Авторы протестировали четыре популярные модели на двух наборах данных и обнаружили систематические, но сильно различающиеся эффекты.
В работе использовались два датасета: 50 базовых вопросов с пятью вариантами тона и подмножество MMLU из 570 вопросов по 57 темам с семью вариантами тона. Тестирование прошли ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash и Gemini 2.5 Flash Lite.
Выяснилось, что тон влияет на точность, но характер влияния сильно зависит от модели. Некоторые модели показывали небольшие, хотя и статистически значимые сдвиги, в то время как у других наблюдались серьёзные колебания точности в зависимости от тона. Например, для одних моделей вежливый тон мог повысить точность, для других – снизить.
Учёные также выявили различия в чувствительности к тону на уровне отдельных предметов. Кроме того, они предложили метод маршрутизации (routing framework), который объясняет, как тон может активировать разные внутренние режимы рассуждения модели.
Авторы предупреждают: пользователям не стоит полагаться на то, что модель одинаково надёжна при любом тоне запроса. Результаты подчёркивают важность учёта тона при разработке приложений на основе LLM и при проведении тестов.




