DisaBench: новый бенчмарк для оценки вреда языковых моделей людям с инвалидностью
Группа исследователей опубликовала в arXiv препринт, в котором представила DisaBench — оценочный фреймворк для выявления вреда, который большие языковые модели (LLM) могут наносить людям с инвалидностью. Авторы отмечают, что существующие универсальные бенчмарки не учитывают многие специфические риски.
DisaBench создавался совместно с людьми, имеющими инвалидность, и экспертами по red teaming. В его основе — таксономия из 12 категорий вреда, охватывающих такие аспекты, как стигматизация, исключение, неуважительная терминология и другие. Для оценки используется 175 промптов, разбитых на семь жизненных сфер (образование, здравоохранение, трудоустройство и т.д.).
На каждый промпт модель генерировала ответ, который затем оценивали четыре аннотатора с личным опытом инвалидности. Всего было размечено 525 пар «промпт-ответ». Исследование выявило три ключевых результата.
Во-первых, частота вреда сильно варьируется в зависимости от типа инвалидности и может усиливаться при мультимодальном взаимодействии (например, когда текст сочетается с изображениями). Во-вторых, вред, связанный с использованием определённой терминологии, сильно зависит от культурного и временного контекста — то, что сегодня считается оскорбительным, может не быть таковым в другой среде. В-третьих, стандартные проверки безопасности ловят лишь явные случаи, но пропускают тонкие формы вреда, которые распознают только эксперты с соответствующим опытом.
Авторы подчёркивают, что вред для людей с инвалидностью является одновременно личным, пересекающимся с другими характеристиками и определяемым сообществом. Общие бенчмарки систематически его упускают.
Разработчики планируют выложить набор данных, таксономию и методологию на Hugging Face, а также предоставить открытый фреймворк для red teaming, который можно интегрировать в существующие пайплайны безопасности без дополнительной инфраструктуры.
Публикация DisaBench может стать важным шагом к более инклюзивному тестированию LLM и снижению рисков для уязвимых групп пользователей.


