Новая графовая нейросеть SSProNet учится представлять белки с учётом вторичной структуры и энергетики водородных связей

Группа исследователей опубликовала на arXiv препринт, в котором описала новый подход к представлению белков с помощью графовых нейронных сетей. Разработанная архитектура, получившая название SSProNet, учитывает вторичную структуру белка и водородные связи, отфильтрованные по их энергетической силе.

Авторы отмечают, что существующие графовые методы часто опираются только на соседство по последовательности или геометрическую близость, что лишь частично отражает принципы укладки белка. Белки же образуют сложные трёхмерные конформации, организованные вокруг элементов вторичной структуры, таких как альфа-спирали и бета-листы.

В SSProNet узловые представления на уровне остатков аминокислот дополняются назначениями вторичной структуры, а рёбра графа строятся на основе водородных связей, отфильтрованных по энергетической прочности. Это позволяет модели захватывать как локальный структурный контекст, так и дальние взаимодействия, важные для стабильности и функции белка.

По данным авторов, при оценке на стандартных бенчмарках для представления белков SSProNet показал стабильное улучшение по сравнению с существующими графовыми методами. Кроме того, полученные графовые представления обладают повышенной биологической интерпретируемостью — изученные связи в графе соответствуют известным структурным мотивам.

Результаты свидетельствуют, что включение вторичной структуры и энергетически отфильтрованной топологии водородных связей даёт эффективную индуктивную предпосылку для обучения представлений белков. Исследователи открыли исходный код модели на GitHub.