Наука
Новый бенчмарк GENSTRAT оценивает стратегическое мышление ИИ на..
Исследователи представили GENSTRAT — генеративный бенчмарк для оценки стратегических способностей больших языковых моделей. В турнире с 36...
MARICL: ИИ-агенты находят причины ошибок моделей и улучшают..
Исследователи представили Multi-Agent Residual In-Context Learning (MARICL) — фреймворк, в котором LLM-агенты анализируют ошибки базовой...
Ученые предложили концепцию AutoResearch: ИИ берет на себя весь..
Новый обзор на arXiv описывает AutoResearch — автоматизацию научных исследований с помощью ИИ. В работе выделены пять этапов и пять...
Tensor Cache улучшает кэширование Transformer моделей, сочетая..
Исследователи предложили Tensor Cache — двухуровневую архитектуру кэширования для авторегрессионных Transformer моделей. Она сочетает...
Новый метод IDS: ИИ научился создавать формально..
Исследователи представили метод Inductive Deductive Synthesis (IDS), который позволяет ИИ-агентам генерировать код с формальными гарантиями...
EDRM: новый метод определяет, когда LLM стоит включать цепочку..
Исследователи выявили, что эффективность цепочки рассуждений (CoT) в LLM зависит от динамики энтропии на ранних этапах генерации....
Метод PathCal повышает эффективность рассуждений языковых..
Исследователи представили PathCal — новый метод, который калибрует маркеры рефлексии в цепочках рассуждений больших языковых моделей....
MedExpMem: фреймворк для накопления опыта ИИ в диагностике..
Исследователи представили MedExpMem — фреймворк, позволяющий моделям визуального языка накапливать опыт дифференциальной диагностики. В...
Детерминированный горизонт: невозможность ИИ стала правилом..
Новое исследование на arXiv показывает, что фундаментальные ограничения ИИ, такие как теоремы Тьюринга и Arrow, могут служить...
Маленькие ИИ-модели копируют числа вместо логических рассуждений..
Исследователи выявили, что языковые модели размером 1–3 млрд параметров при решении арифметических задач часто копируют последнее число из...


