LLM-агенты сравнялись с людьми в аннотации фенотипов — исследование
Аннотация фенотипов — ключевой этап в интеграции сравнительных морфологических данных, но он требует высокой квалификации и крайне трудоёмок. Ранее этот процесс могли выполнять только обученные эксперты, что ограничивало масштабирование. В новом исследовании, опубликованном на arXiv, учёные проверили, способны ли современные языковые модели заменить человека в этой задаче.
Авторы взяли за основу Gold Standard из работы Dahdul et al. (2018), включающий Entity-Quality-аннотации по семи филогенетическим исследованиям. Они создали «агентских кураторов» на базе пяти frontier LLM от Anthropic и OpenAI. Каждому агенту предоставили ту же публикацию, руководство по аннотации, онтологии (UBERON, PATO, BSPO, GO) и скрипт валидации.
Результаты показали, что все пять LLM-агентов уложились в диапазон межкураторской вариабельности трёх обученных биокураторов из исходного исследования. Лучшие агенты приблизились к показателям самого успешного человека, хотя и не превзошли его. При этом агенты значительно обошли Semantic CharaParser — NLP-инструмент, основанный на онтологических семантических метриках.
По всем четырём метрикам оценки LLM-агенты существенно превзошли автоматизированный инструмент, который в 2018 году показал значительно более низкую согласованность с человеком. Таким образом, большие языковые модели способны устранить узкое место в аннотации фенотипов, сократив потребность в ручном труде.
Исследование демонстрирует, что при правильной интеграции моделей с релевантными данными и инструментами они могут достигать экспертного уровня. Это открывает путь к автоматизации масштабных задач в биоинформатике, где ранее требовались годы работы десятков специалистов.




