Наука
OmniToM: бенчмарк теории разума для LLM выявил проблему..
Исследователи представили OmniToM — бенчмарк для оценки теории разума (ToM) у больших языковых моделей. В отличие от стандартных тестов, он...
TSFMAudit: новый метод выявления загрязнения данных в моделях..
Исследователи предложили метод TSFMAudit для проверки, не были ли тестовые наборы данных использованы при предобучении моделей временных...
Автономные AI-агенты взялись за научные задачи: сбор данных и..
Исследователи представили две системы агентного ИИ: DeepTS для автоматизации работы с временными рядами и DeepScribe для превращения...
Новый метод NBSR: нейросети научились принимать решения с учётом..
Исследователи предложили Neural Bayesian Sequential Routing (NBSR) — фреймворк, который имитирует человеческое принятие решений за счёт...
Новый бенчмарк MPMMine решит проблему оценки алгоритмов вывода..
Исследователи представили MPMMine — открытый набор тестов для алгоритмов, которые автоматически извлекают и проверяют модели...
Принудительные JSON-схемы снижают точность малых моделей с 20%..
Ученые измерили «налог на ограничения»: при жестких выходных форматах малые языковые модели (до 3 млрд параметров) резко теряют в...
POLAR: Новая система памяти для ИИ-агентов, запоминающая личные..
Исследователи представили POLAR — фреймворк, наделяющий мультимодальных языковых моделей долговременной памятью. Система строит граф знаний...
GEM: метод геометрического смешивания энтропии улучшает подбор..
Исследователи представили GEM (Geometric Entropy Mixing) — фреймворк для оптимального подбора данных при предобучении больших языковых...
Большие языковые модели не способны к истинной интроспекции..
Новое исследование на arXiv ставит под сомнение способность больших языковых моделей к интроспекции. Ученые перепроверили результаты...
На РОС запланировали 30 экспериментов с применением ИИ..
Глава Роскосмоса Дмитрий Баканов сообщил о 30 запланированных экспериментах на Российской орбитальной станции (РОС). Ранее в госкорпорации...



