LLM-рецензии на научные статьи: слабая согласованность с людьми и риск накрутки баллов
Использование больших языковых моделей для рецензирования научных статей становится всё более распространённым. Крупные конференции уже начали пилотные проекты по внедрению LLM-рецензий. Однако насколько такие рецензии соответствуют оценкам живых экспертов? Ответ на этот вопрос попытались найти учёные из Гамбургского университета.
В своей работе они проанализировали материалы конференции ACL Rolling Review (ARR) за 2025 год. С помощью нескольких моделей LLM были сгенерированы рецензии на одни и те же статьи, после чего их сравнили с рецензиями, написанными людьми. Выяснилось, что в лучшем случае согласованность можно назвать «разумной», но в целом она оказалась ограниченной. Более того, результаты сильно различались в зависимости от выбранной модели и формулировок промпта.
Авторы не только оценили качество LLM-рецензий, но и смоделировали ситуацию, когда автор статьи использует модель для доработки текста перед отправкой. Схема выглядит так: автор получает рецензию от LLM, вносит правки, снова отправляет на рецензирование и повторяет цикл. Такой подход исследователи назвали «игрой» (gaming) системой.
Эксперимент показал, что эта стратегия может быть эффективной в определённых сценариях. В частности, до 35% статей, прошедших несколько циклов доработки по рекомендациям LLM, получили статистически значимое повышение итоговых баллов. То есть авторы могут искусственно улучшать свои работы, подстраиваясь под предпочтения модели.
Полученные результаты ставят под сомнение надёжность использования LLM в качестве единственного или основного инструмента рецензирования. Исследователи отмечают, что необходимы дополнительные меры для выявления и предотвращения такой «подстройки». Код экспериментов опубликован в открытом доступе для дальнейшего изучения.
Работа является одним из первых масштабных эмпирических исследований на реальных данных конференции. Она поднимает важные вопросы о балансе между эффективностью автоматизации и сохранением качества научного рецензирования.






