Температура 0 не гарантирует стабильность LLM-судей в оценках безопасности
Исследователи из AISI (Япония) выявили критический недостаток в практике использования LLM в качестве судей при оценке безопасности. В опубликованном на arXiv препринте они демонстрируют, что распространённое убеждение о детерминированности оценок при температуре 0 не соответствует действительности.
Эксперименты проводились на открытом наборе инструментов aisev. Выяснилось, что стандартный вызов судьи происходит без явного указания температуры и seed, поэтому провайдер по умолчанию использует температуру 1.0. Это приводит к тому, что при повторных запусках до 50% граничных примеров меняют вердикт с «pass» на «fail» и обратно.
Даже при принудительной установке температуры на 0 и использовании жадного декодирования (top_k=1) нестабильность полностью не устраняется. Из 690 API-запросов, охватывающих двух провайдеров, три уровня моделей и пять конфигураций выборки, 1–2 из 7 граничных элементов оставались невоспроизводимыми.
Ситуация осложняется тем, что модели Claude Opus 4.7 и 4.8 полностью отказались от поддержки параметра температуры. Это делает невозможным применение основного способа снижения вариативности для новых поколений моделей.
Авторы подчёркивают, что оценки безопасности, полученные в результате однократного запуска, могут отражать не реальное свойство модели, а шум. Они рекомендуют включить показатель согласия судей как метрику состояния наравне со стандартными оценками. Исследователи также публикуют собственный набор для воспроизведения результатов.




