Наука

Новый бенчмарк GENSTRAT оценивает стратегическое мышление ИИ на карточных играх

Новый бенчмарк GENSTRAT оценивает стратегическое мышление ИИ на..

Исследователи представили GENSTRAT — генеративный бенчмарк для оценки стратегических способностей больших языковых моделей. В турнире с 36...


MARICL: ИИ-агенты находят причины ошибок моделей и улучшают прогнозы в науке

MARICL: ИИ-агенты находят причины ошибок моделей и улучшают..

Исследователи представили Multi-Agent Residual In-Context Learning (MARICL) — фреймворк, в котором LLM-агенты анализируют ошибки базовой...


Ученые предложили концепцию AutoResearch: ИИ берет на себя весь цикл научных открытий

Ученые предложили концепцию AutoResearch: ИИ берет на себя весь..

Новый обзор на arXiv описывает AutoResearch — автоматизацию научных исследований с помощью ИИ. В работе выделены пять этапов и пять...


Tensor Cache улучшает кэширование Transformer моделей, сочетая точность и экономию памяти

Tensor Cache улучшает кэширование Transformer моделей, сочетая..

Исследователи предложили Tensor Cache — двухуровневую архитектуру кэширования для авторегрессионных Transformer моделей. Она сочетает...


Новый метод IDS: ИИ научился создавать формально верифицированные системы за 7 часов вместо месяцев

Новый метод IDS: ИИ научился создавать формально..

Исследователи представили метод Inductive Deductive Synthesis (IDS), который позволяет ИИ-агентам генерировать код с формальными гарантиями...


EDRM: новый метод определяет, когда LLM стоит включать цепочку рассуждений

EDRM: новый метод определяет, когда LLM стоит включать цепочку..

Исследователи выявили, что эффективность цепочки рассуждений (CoT) в LLM зависит от динамики энтропии на ранних этапах генерации....


Метод PathCal повышает эффективность рассуждений языковых моделей за счет калибровки маркеров рефлексии

Метод PathCal повышает эффективность рассуждений языковых..

Исследователи представили PathCal — новый метод, который калибрует маркеры рефлексии в цепочках рассуждений больших языковых моделей....


MedExpMem: фреймворк для накопления опыта ИИ в диагностике повысил точность на 7%

MedExpMem: фреймворк для накопления опыта ИИ в диагностике..

Исследователи представили MedExpMem — фреймворк, позволяющий моделям визуального языка накапливать опыт дифференциальной диагностики. В...


Детерминированный горизонт: невозможность ИИ стала правилом проектирования

Детерминированный горизонт: невозможность ИИ стала правилом..

Новое исследование на arXiv показывает, что фундаментальные ограничения ИИ, такие как теоремы Тьюринга и Arrow, могут служить...


Маленькие ИИ-модели копируют числа вместо логических рассуждений

Маленькие ИИ-модели копируют числа вместо логических рассуждений..

Исследователи выявили, что языковые модели размером 1–3 млрд параметров при решении арифметических задач часто копируют последнее число из...