Ученые создали бенчмарк TRIVIA+ для тестирования детекторов галлюцинаций LLM

Галлюцинации у больших языковых моделей (LLM) — одна из ключевых проблем при их внедрении в реальные приложения. Под галлюцинациями понимают генерацию неверных, вымышленных или противоречивых фактов. Для борьбы с этим явлением разрабатываются специальные детекторы, но их качество зависит от тестовых наборов данных — бенчмарков.

Группа исследователей представила работу, в которой проанализировала существующие бенчмарки для оценки детекторов и выявила два крупных пробела: отсутствие длинных контекстов (типичных для RAG-систем) и нехватка реалистичного шума в разметке. В реальных условиях разметка часто содержит ошибки, но существующие бенчмарки этого не учитывают.

Для восполнения пробелов авторы создали новый бенчмарк TRIVIA+ на основе RAG-подхода. Он прошёл тщательную ручную разметку и включает образцы с самым длинным контекстом среди аналогов — до 5000 токенов. Кроме того, в набор добавлены четыре варианта шумовых меток с разными схемами, что позволяет тестировать детекторы в условиях, близких к реальным.

Эксперименты с популярными детекторами показали, что даже современные модели далеки от совершенства. Например, простой метод LLM-as-a-Judge (оценка одной моделью другой) показал конкурентоспособные результаты, уступив лишь самым продвинутым системам. Также выяснилось, что шум в разметке значительно снижает точность детекции.

Авторы надеются, что новый бенчмарк и полученные выводы стимулируют дальнейшие исследования в области детекции галлюцинаций, особенно для RAG-задач, которые активно используются в поисковых системах и чат-ботах.