Новый бенчмарк SMDD-Bench: LLM-агенты справляются лишь с 40% задач по дизайну лекарств

Редакция RusNews 23-май, 09:39 Наука 1 Искусственный интеллект

Международная группа ученых разработала новый стандартизированный тест для оценки способностей больших языковых моделей (LLM) в области дизайна малых молекул для лекарственных препаратов. Бенчмарк получил название SMDD-Bench (Small Molecule Drug Design Benchmark). Работа опубликована в репозитории arXiv (ID: 2605.21740).

SMDD-Bench состоит из 502 гарантированно решаемых заданий, разделенных на пять типов: идентификация 2D-фармакофоров, поиск точек взаимодействия, скаффолд-хоппинг, оптимизация лидерных соединений и сборка фрагментов. Каждое задание имитирует реальные задачи, с которыми сталкиваются исследователи при разработке лекарств.

Особенность бенчмарка — его многозадачность и необходимость длительного планирования. Для успешного решения требуется не только химико-биологическая интуиция и понимание трехмерной структуры молекул, но и умение использовать специализированные инструменты при ограниченном числе обращений к оракулу (симуляции). В тесте задействовано 102 уникальных белковых мишени, охватывающих широкие области химического пространства.

Авторы протестировали семь ведущих открытых и закрытых LLM. Результаты показали, что даже самая производительная модель — GPT-5.4 от OpenAI — смогла решить лишь 40,2% задач. Это демонстрирует, что современные LLM-агенты пока далеки от полноценной автономной работы в области вычислительного дизайна лекарств.

Разработчики надеются, что SMDD-Bench станет общепринятым полигоном для стимулирования дальнейших исследований. Они призывают научное сообщество использовать бенчмарк для тренировки и оценки ИИ-агентов, способных полностью автоматизировать процесс поиска новых молекул. Публичный лидерборд уже доступен на сайте smddbench.com.

Работа подчеркивает, что, несмотря на впечатляющие успехи LLM в других областях, для применения в столь сложной и ответственной сфере, как разработка лекарств, моделям еще предстоит преодолеть серьезные ограничения в химическом и биологическом рассуждении.

Новый бенчмарк SMDD-Bench: LLM-агенты справляются лишь с 40% задач по дизайну лекарств

Разделы

Навигация

Теги

Новый бенчмарк SMDD-Bench: LLM-агенты справляются лишь с 40% задач по дизайну лекарств

Читайте также

Разделы

Навигация

Теги