Новая система ScientistOne устраняет галлюцинации в автономных исследованиях
Исследователи представили ScientistOne – автономную систему для проведения научных исследований, которая решает проблему галлюцинаций и недостоверных данных. Часто современные ИИ-агенты генерируют вымышленные ссылки, невоспроизводимые результаты и расхождения между описанием метода и реализацией. Новая разработка призвана кардинально повысить проверяемость.
Ключевая инновация – фреймворк Chain-of-Evidence (CoE), требующий, чтобы каждое утверждение было прослеживаемо до источника. ScientistOne встраивает цепочки доказательств на всех этапах: от обзора литературы до написания статьи. Дополнительно предложен инструмент CoE Audit для пост-фактум проверки с четырьмя критериями: верификация оценок, соответствие спецификации, проверка ссылок и согласованность метода с кодом.
Тестирование охватило 75 научных работ от пяти систем по пяти передовым задачам. У всех базовых решений обнаружились системные сбои: уровень галлюцинаций в ссылках достигал 21%, верификация оценок проходила лишь в 42% работ, а согласованность метода с кодом колебалась от 20% до 80%. На этом фоне ScientistOne показал выдающиеся результаты: нулевые ложные ссылки (0 из 337), 100% верификация оценок (12 из 12) и почти идеальная согласованность (14 из 15).
По всем пяти фронтальным задачам ScientistOne не уступал, а по некоторым превзошёл экспертов-людей. Система также продемонстрировала универсальность на дополнительных шести задачах – от медицинской визуализации до языкового моделирования. Она завоевала золотые медали в бенчмарке MLE-Bench, где другие системы терпели полный провал, и достигла современного уровня в соревновании Parameter Golf.
Разработка ScientistOne знаменует шаг к созданию по-настоящему надёжных автономных исследовательских агентов. Новый подход не только повышает качество научных результатов, но и закладывает стандарты прозрачности, которые могут быть приняты в ИИ-сообществе. Авторы отмечают, что методика Chain-of-Evidence может быть распространена на любые системы, генерирующие тексты с утверждениями.



