Наука

OmniToM: бенчмарк теории разума для LLM выявил проблему отслеживания убеждений

OmniToM: бенчмарк теории разума для LLM выявил проблему..

Исследователи представили OmniToM — бенчмарк для оценки теории разума (ToM) у больших языковых моделей. В отличие от стандартных тестов, он...


TSFMAudit: новый метод выявления загрязнения данных в моделях временных рядов

TSFMAudit: новый метод выявления загрязнения данных в моделях..

Исследователи предложили метод TSFMAudit для проверки, не были ли тестовые наборы данных использованы при предобучении моделей временных...


Автономные AI-агенты взялись за научные задачи: сбор данных и анализ лекций

Автономные AI-агенты взялись за научные задачи: сбор данных и..

Исследователи представили две системы агентного ИИ: DeepTS для автоматизации работы с временными рядами и DeepScribe для превращения...


Новый метод NBSR: нейросети научились принимать решения с учётом неопределённости

Новый метод NBSR: нейросети научились принимать решения с учётом..

Исследователи предложили Neural Bayesian Sequential Routing (NBSR) — фреймворк, который имитирует человеческое принятие решений за счёт...


Новый бенчмарк MPMMine решит проблему оценки алгоритмов вывода ограничений

Новый бенчмарк MPMMine решит проблему оценки алгоритмов вывода..

Исследователи представили MPMMine — открытый набор тестов для алгоритмов, которые автоматически извлекают и проверяют модели...


Принудительные JSON-схемы снижают точность малых моделей с 20% до 11% — исследование

Принудительные JSON-схемы снижают точность малых моделей с 20%..

Ученые измерили «налог на ограничения»: при жестких выходных форматах малые языковые модели (до 3 млрд параметров) резко теряют в...


POLAR: Новая система памяти для ИИ-агентов, запоминающая личные предпочтения пользователя

POLAR: Новая система памяти для ИИ-агентов, запоминающая личные..

Исследователи представили POLAR — фреймворк, наделяющий мультимодальных языковых моделей долговременной памятью. Система строит граф знаний...


GEM: метод геометрического смешивания энтропии улучшает подбор данных для LLM

GEM: метод геометрического смешивания энтропии улучшает подбор..

Исследователи представили GEM (Geometric Entropy Mixing) — фреймворк для оптимального подбора данных при предобучении больших языковых...


Большие языковые модели не способны к истинной интроспекции

Большие языковые модели не способны к истинной интроспекции..

Новое исследование на arXiv ставит под сомнение способность больших языковых моделей к интроспекции. Ученые перепроверили результаты...


На РОС запланировали 30 экспериментов с применением ИИ

На РОС запланировали 30 экспериментов с применением ИИ..

Глава Роскосмоса Дмитрий Баканов сообщил о 30 запланированных экспериментах на Российской орбитальной станции (РОС). Ранее в госкорпорации...