BioBERT показал лучшую точность в выявлении причинно-следственных связей побочных эффектов лекарств

Вопрос отличия причинно-следственных связей при нежелательных реакциях на лекарства (НРЛ) от случайных корреляций остается одной из ключевых задач фармаконадзора. Для ее решения разработан фреймворк InferBERT, объединяющий трансформеры с Do-исчислением. Однако его эффективность сильно зависит от выбора классификационной модели.

Группа исследователей провела сравнительный анализ четырех моделей в составе InferBERT: XGBoost (базовый уровень), ALBERT (оригинальная модель), BioBERT (биомедицинский трансформер) и Med-LLaMA (медицинская языковая модель). Эксперименты проводились на двух бенчмарках: острая печеночная недостаточность, вызванная анальгетиками (AILF), и смертность, связанная с трамадолом (TRAM).

Результаты показали, что BioBERT достиг наивысшей точности на обоих наборах данных. Med-LLaMA, несмотря на большой размер и тонкую настройку параметров, показал худшие результаты. По словам авторов, решающим фактором стало доменно-специфическое предобучение.

Исследователи также оценили калибровку моделей — способность выдавать корректные вероятности. Изотопическая регрессия улучшила Expected Calibration Error (ECE), но влияние на точность и выявление причинно-следственных связей оказалось неоднозначным.

Кроме того, BioBERT продемонстрировал наилучшее согласие с традиционными сигналами фармаконадзора, такими как PRR, ROR и EBGM. Это подтверждает, что модели с предобучением на профильных данных более эффективны, чем простые алгоритмы или крупные LLM.

Авторы делают вывод, что инвестиции в управляемые доменно-ориентированные модели оказываются продуктивнее простого увеличения размера модели. Работа опубликована на arXiv и доступна для ознакомления.