Наука

DualOptim+: новый метод точного забывания для больших языковых моделей

DualOptim+: новый метод точного забывания для больших языковых..

Исследователи из City University of Hong Kong представили фреймворк DualOptim+, который улучшает машинное забывание в LLM, вводя базовое и...


Новый бенчмарк SMDD-Bench: LLM-агенты справляются лишь с 40% задач по дизайну лекарств

Новый бенчмарк SMDD-Bench: LLM-агенты справляются лишь с 40%..

Исследователи представили SMDD-Bench — бенчмарк для оценки LLM-агентов в дизайне малых молекул. Он включает 502 задачи пяти типов,...


Разработан воспроизводимый AutoML-фреймворк для прогнозирования риска диабета и инсульта

Разработан воспроизводимый AutoML-фреймворк для прогнозирования..

Ученые представили новый автоматизированный фреймворк машинного обучения yvsoucom-iterkit, который оптимизирует пайплайны для предсказания...


Исследователи представили AttuneBench — бенчмарк для измерения эмоционального интеллекта LLM в диалогах

Исследователи представили AttuneBench — бенчмарк для измерения..

Новый бенчмарк AttuneBench использует 200 реальных многошаговых диалогов между людьми и анонимными LLM для оценки эмоционального интеллекта...


Ученые выявили оптимальную конструкцию обвязки для ИИ-агентов: меньше планирования — выше успех

Ученые выявили оптимальную конструкцию обвязки для ИИ-агентов:..

Исследователи изучили, как обвязка (harness) влияет на производительность ИИ-агентов. Оказалось, что чрезмерная детализация заданий и...


Новый метод атаки на языковые модели обходит защиту от вредных запросов

Новый метод атаки на языковые модели обходит защиту от вредных..

Исследователи представили метод Controlled Latent-space Evasion, который более эффективно подавляет отказ языковых моделей отвечать на...


Метод RAP: как предсказать успех LLM-программ по нескольким примерам

Метод RAP: как предсказать успех LLM-программ по нескольким..

Исследователи представили метод RAP, который позволяет прогнозировать производительность программ на основе языковых моделей по результатам...


Частое использование ИИ ослабляет навыки логического мышления, показало исследование

Частое использование ИИ ослабляет навыки логического мышления,..

Ученые выяснили, что активное применение ИИ в задачах на логику снижает способность человека решать их самостоятельно. При этом качество...


HealthCraft: первая публичная RL-среда для безопасной работы ИИ в неотложной медицине

HealthCraft: первая публичная RL-среда для безопасной работы ИИ..

Исследователи представили HealthCraft — среду обучения с подкреплением для оценки безопасности больших языковых моделей в условиях...


MindLoom: новый метод генерации данных для обучения ИИ рассуждениям

MindLoom: новый метод генерации данных для обучения ИИ..

Исследователи представили фреймворк MindLoom для синтеза сложных задач на рассуждение. Он разбивает решения на цепочки мыслей и использует...