Ученые создали бенчмарк TRIVIA+ для тестирования детекторов галлюцинаций LLM
Галлюцинации у больших языковых моделей (LLM) — одна из ключевых проблем при их внедрении в реальные приложения. Под галлюцинациями понимают генерацию неверных, вымышленных или противоречивых фактов. Для борьбы с этим явлением разрабатываются специальные детекторы, но их качество зависит от тестовых наборов данных — бенчмарков.
Группа исследователей представила работу, в которой проанализировала существующие бенчмарки для оценки детекторов и выявила два крупных пробела: отсутствие длинных контекстов (типичных для RAG-систем) и нехватка реалистичного шума в разметке. В реальных условиях разметка часто содержит ошибки, но существующие бенчмарки этого не учитывают.
Для восполнения пробелов авторы создали новый бенчмарк TRIVIA+ на основе RAG-подхода. Он прошёл тщательную ручную разметку и включает образцы с самым длинным контекстом среди аналогов — до 5000 токенов. Кроме того, в набор добавлены четыре варианта шумовых меток с разными схемами, что позволяет тестировать детекторы в условиях, близких к реальным.
Эксперименты с популярными детекторами показали, что даже современные модели далеки от совершенства. Например, простой метод LLM-as-a-Judge (оценка одной моделью другой) показал конкурентоспособные результаты, уступив лишь самым продвинутым системам. Также выяснилось, что шум в разметке значительно снижает точность детекции.
Авторы надеются, что новый бенчмарк и полученные выводы стимулируют дальнейшие исследования в области детекции галлюцинаций, особенно для RAG-задач, которые активно используются в поисковых системах и чат-ботах.


