Наука
CenterLoss ухудшает OOD detection: новая модель GOEN ставит..
Исследователи выяснили, что популярный регуляризатор CenterLoss снижает качество детекции выбросов (OOD), несмотря на рост точности...
ИИ-анализ 1600 свидетельств Холокоста: структура повествований..
Исследователи из США провели крупномасштабный компьютерный анализ более 1600 устных свидетельств выживших в Холокосте из двух ведущих...
Малые языковые модели научились предсказывать успех научных..
Исследователи обучили компактные языковые модели (8 млрд параметров) прогнозировать, какая из двух научных гипотез приведет к лучшим...
MOOD: новый бенчмарк для обнаружения неочевидных сбоев..
Исследователи представили бенчмарк MOOD (Misalignment Out Of Distribution) для оценки систем мониторинга LLM. Они выяснили, что стандартные...
SpaceX успешно запустила самую большую ракету в истории..
Компания SpaceX провела 12-й испытательный полет сверхтяжелой ракетной системы Starship. Ракета-носитель Super Heavy V-3 стартовала с...
CUGA представила систему политик для управления LLM-агентами без..
Разработчик CUGA представил модульную систему политик для управления поведением LLM-агентов. Решение задаёт разрешённые действия, уровень...
PlanningBench: фреймворк для генерации проверяемых планировочных..
Исследователи представили PlanningBench — систему для создания масштабируемых и верифицируемых планировочных задач. Оценка современных LLM...
Новый ИИ-агент VBFDD-Agent обнаруживает неисправности батарей..
Учёные предложили VBFDD-Agent — систему на основе больших языковых моделей для диагностики неисправностей литий-ионных аккумуляторов. Агент...
Declarative Data Services: новая архитектура ИИ для сборки..
Исследователи предложили Declarative Data Services (DDS) — архитектуру, которая позволяет LLM-агентам собирать рабочие системы данных из...
Новый метод кэширования ускоряет промышленные AI-пайплайны в 30..
Исследователи представили бенчмарк AssetOpsBench и два метода оптимизации для промышленных AI-агентов. Временное кэширование дало...



