Наука
DualOptim+: новый метод точного забывания для больших языковых..
Исследователи из City University of Hong Kong представили фреймворк DualOptim+, который улучшает машинное забывание в LLM, вводя базовое и...
Новый бенчмарк SMDD-Bench: LLM-агенты справляются лишь с 40%..
Исследователи представили SMDD-Bench — бенчмарк для оценки LLM-агентов в дизайне малых молекул. Он включает 502 задачи пяти типов,...
Разработан воспроизводимый AutoML-фреймворк для прогнозирования..
Ученые представили новый автоматизированный фреймворк машинного обучения yvsoucom-iterkit, который оптимизирует пайплайны для предсказания...
Исследователи представили AttuneBench — бенчмарк для измерения..
Новый бенчмарк AttuneBench использует 200 реальных многошаговых диалогов между людьми и анонимными LLM для оценки эмоционального интеллекта...
Ученые выявили оптимальную конструкцию обвязки для ИИ-агентов:..
Исследователи изучили, как обвязка (harness) влияет на производительность ИИ-агентов. Оказалось, что чрезмерная детализация заданий и...
Новый метод атаки на языковые модели обходит защиту от вредных..
Исследователи представили метод Controlled Latent-space Evasion, который более эффективно подавляет отказ языковых моделей отвечать на...
Метод RAP: как предсказать успех LLM-программ по нескольким..
Исследователи представили метод RAP, который позволяет прогнозировать производительность программ на основе языковых моделей по результатам...
Частое использование ИИ ослабляет навыки логического мышления,..
Ученые выяснили, что активное применение ИИ в задачах на логику снижает способность человека решать их самостоятельно. При этом качество...
HealthCraft: первая публичная RL-среда для безопасной работы ИИ..
Исследователи представили HealthCraft — среду обучения с подкреплением для оценки безопасности больших языковых моделей в условиях...
MindLoom: новый метод генерации данных для обучения ИИ..
Исследователи представили фреймворк MindLoom для синтеза сложных задач на рассуждение. Он разбивает решения на цепочки мыслей и использует...


