SoftBlobGIN: фреймворк для интерпретации предсказаний языковых моделей белков

Группа исследователей разработала фреймворк SoftBlobGIN, который делает предсказания белковых языковых моделей (PLM) более прозрачными. Работа опубликована на arXiv.

Современные PLM, например ESM-2, демонстрируют высокую точность при предсказании функций белков, но их внутренние представления сложны для интерпретации. SoftBlobGIN решает эту проблему, проецируя скрытые векторы ESM-2 на графы контактов аминокислот и применяя лёгкую сеть графовых изоморфизмов с дифференцируемой кластеризацией Gumbel-softmax.

Фреймворк добавляет к ESM-2 всего около 1,1 миллиона параметров и не требует переобучения базовой модели. На задаче классификации ферментов SoftBlobGIN достиг accuracy 92,8% и макро-F1 0,898. Для детекции участков связывания AUROC вырос с 0,885 при использовании линейного зонда на ESM-2 до 0,983.

Ключевое преимущество — возможность аудита предсказаний. Метод GNNExplainer выделил функционально важные остатки активного центра, а обученные кластеры (blobs) автоматически сгруппировали релевантные структурные фрагменты. Blobs с аннотированными активными центрами показали в 1,85 раза более высокую важность, чем другие группировки, без использования разметки сайтов связывания.

На тестах ProteinShake фреймворк показал Fmax 0,733 на предсказании онтологии генов (GO) и AUROC 0,969 на задаче детекции участков связывания. По словам авторов, SoftBlobGIN выступает интерпретируемым структурным компаньоном для белковых языковых моделей, делая их прогнозы более прозрачными и проверяемыми.