Обучение ИИ на синтетических объяснениях навредило прогнозу деменции — исследование arXiv

Исследователи из arXiv обнаружили, что дообучение языковых моделей с синтетическими данными, содержащими обоснования решений, ухудшает точность реальных клинических прогнозов. Работа посвящена предсказанию болезни Альцгеймера и связанных деменций (ADRD) на основе многолетних историй болезни.

В ходе крупномасштабного контролируемого эксперимента с 504 различными конфигурациями авторы сравнили два подхода: дообучение только на метках (label-only) и дообучение с добавлением синтетических рассуждений. Вопреки ожиданиям, модель, обучавшаяся на синтетических обоснованиях, систематически и существенно уступала по точности предсказаний.

Ухудшение наблюдалось на всех тестируемых семействах моделей и масштабах данных. Оно не исчезло даже при использовании специализированной модели, нацеленной на рассуждения. Примечательно, что проблема не объясняется низким качеством синтетических данных: эксперты подтвердили их медицинскую точность и обоснованность.

Дополнительные эксперименты показали, что те же самые синтетические рассуждения, если использовать их как подсказки во время инференса (например, в режиме few-shot), не ухудшают, а улучшают предсказания. Значит, причина не в самих данных, а в самом процессе дообучения.

Исследователи выявили корень проблемы: структурный конфликт между правдоподобием нарратива (narrative plausibility) и дискриминативной оптимизацией. Модель, стремясь сгенерировать связное объяснение, теряет способность точно различать классы.

Авторы надеются, что их работа поможет точнее понять, когда и как добавление обоснований к обучению приносит пользу, а когда вредит. Это особенно важно для ответственного применения языковых моделей в клинических прогнозах, где каждая ошибка может иметь серьёзные последствия.