Наука

CenterLoss ухудшает OOD detection: новая модель GOEN ставит рекорд на CIFAR-10

CenterLoss ухудшает OOD detection: новая модель GOEN ставит..

Исследователи выяснили, что популярный регуляризатор CenterLoss снижает качество детекции выбросов (OOD), несмотря на рост точности...


ИИ-анализ 1600 свидетельств Холокоста: структура повествований оказалась сложнее, чем считалось

ИИ-анализ 1600 свидетельств Холокоста: структура повествований..

Исследователи из США провели крупномасштабный компьютерный анализ более 1600 устных свидетельств выживших в Холокосте из двух ведущих...


Малые языковые модели научились предсказывать успех научных идей, обогнав GPT-5

Малые языковые модели научились предсказывать успех научных..

Исследователи обучили компактные языковые модели (8 млрд параметров) прогнозировать, какая из двух научных гипотез приведет к лучшим...


MOOD: новый бенчмарк для обнаружения неочевидных сбоев безопасности LLM

MOOD: новый бенчмарк для обнаружения неочевидных сбоев..

Исследователи представили бенчмарк MOOD (Misalignment Out Of Distribution) для оценки систем мониторинга LLM. Они выяснили, что стандартные...


SpaceX успешно запустила самую большую ракету в истории

SpaceX успешно запустила самую большую ракету в истории..

Компания SpaceX провела 12-й испытательный полет сверхтяжелой ракетной системы Starship. Ракета-носитель Super Heavy V-3 стартовала с...


CUGA представила систему политик для управления LLM-агентами без дообучения

CUGA представила систему политик для управления LLM-агентами без..

Разработчик CUGA представил модульную систему политик для управления поведением LLM-агентов. Решение задаёт разрешённые действия, уровень...


PlanningBench: фреймворк для генерации проверяемых планировочных данных улучшает LLM

PlanningBench: фреймворк для генерации проверяемых планировочных..

Исследователи представили PlanningBench — систему для создания масштабируемых и верифицируемых планировочных задач. Оценка современных LLM...


Новый ИИ-агент VBFDD-Agent обнаруживает неисправности батарей электромобилей

Новый ИИ-агент VBFDD-Agent обнаруживает неисправности батарей..

Учёные предложили VBFDD-Agent — систему на основе больших языковых моделей для диагностики неисправностей литий-ионных аккумуляторов. Агент...


Declarative Data Services: новая архитектура ИИ для сборки систем данных из запросов пользователя

Declarative Data Services: новая архитектура ИИ для сборки..

Исследователи предложили Declarative Data Services (DDS) — архитектуру, которая позволяет LLM-агентам собирать рабочие системы данных из...


Новый метод кэширования ускоряет промышленные AI-пайплайны в 30 раз

Новый метод кэширования ускоряет промышленные AI-пайплайны в 30..

Исследователи представили бенчмарк AssetOpsBench и два метода оптимизации для промышленных AI-агентов. Временное кэширование дало...