Исследователи нашли сигналы сбоя в поведении LLM-трейдеров
Группа исследователей представила результаты анализа поведенческой согласованности и репрезентационной динамики больших языковых моделей (LLM) в среде финансовых решений. Работа, опубликованная на arXiv, опирается на TradeArena — тестовый стенд для торговых агентов с возможностью аудита, имитации исполнения и воспроизведения траекторий.
Ученые обнаружили измеримые сигналы, предшествующие сбоям: эмбеддинги планирования дрейфуют от центроидов нормального состояния, а объединенные представления плана и риска разделяют нормальные и предкризисные состояния. Кроме того, манифестная диагностика показывает сжатие эффективного ранга до сбоев.
Для проверки устойчивости результатов использовались 80 скользящих якорей сбоев из восьми траекторий LLM, а также различные методы зондирования — хэш, LSA, Transformer и скрытые состояния white-box. Авторы подтвердили, что сжатие сохраняется независимо от метода.
Стресс-тесты с удалением цепочек рассуждений, лексическим контролем, шумом в данных OHLCV и ложными аудиторскими отчетами показали: сокращение на уровне рассуждений исчезает без рациональных объяснений, тогда как сжатие в пространстве намерений может оставаться. При этом лексическое разнообразие не падает, а объединенные сигнатуры остаются информативными даже при шуме.
Также выяснилось, что структурированная обратная связь по риску может выступать внешним сигналом согласования без тонкой настройки, но не является универсальным усилителем производительности. Настоящая аудиторская обратная связь улучшала калибровку для одних моделей, доходность и просадку — для других, а в некоторых случаях скрытая или фиктивная обратная связь давала более высокую краткосрочную доходность, но слабые диагностические показатели.
В отдельном эксперименте с 51 акцией внутри дня выявлено слепое пятно корреляции: LLM-рационализации часто оправдывают концентрированную подверженность связанным активам, которые многократно отсекаются уровнем риска. В качестве эталонной ковариационной модели использовался скользящий бенчмарк Марковица.
Авторы подчеркивают, что результаты подтверждают научную гипотезу, а не коммерческую прибыльность: аудируемая обратная связь по риску и траектории репрезентаций показывают, когда финансовые рассуждения LLM согласуются, дрейфуют или терпят неудачу.






