GPT-4.5 прошла расширенный тест Тьюринга: 59% приняли за человека

GPT-4.5 прошла расширенный тест Тьюринга: 59% приняли за человека

Журнал Proceedings of the National Academy of Sciences опубликовал рецензируемую версию исследования Кэмерона Джонса и Бена Бергена из Калифорнийского университета в Сан-Диего. Год назад препринт этой работы на arXiv впервые эмпирически показал, что языковые модели проходят классический трехсторонний тест Тьюринга.

В новой версии исследователи добавили третий эксперимент с 15-минутными разговорами вместо пятиминутных. На длинных диалогах GPT-4.5 принимали за человека в 59% случаев, а LLaMa-3.1-405B — в 56% случаев. Эти показатели статистически неотличимы от результатов настоящих людей, с которыми их сравнивали.

Тест Тьюринга, предложенный Аланом Тьюрингом в 1950 году, предполагает, что машину можно считать мыслящей, если в процессе разговора человек не может отличить её от другого человека. В данном эксперименте участвовали модель GPT-4.5, LLaMa-3.1-405B и живые добровольцы.

Авторы отметили, что в коротких пятиминутных диалогах результаты были схожими, но именно на 15-минутном отрезке модели показали почти идентичную человеку способность к убедительному общению. Это указывает на то, что современные ИИ могут поддерживать естественный разговор продолжительное время.

Исследование поднимает вопросы о том, насколько легко ввести людей в заблуждение с помощью генеративных моделей. Однако авторы подчеркивают, что тест Тьюринга не измеряет интеллект, а лишь способность имитировать человека.

Полученные данные подтверждают, что границы между человеческим и машинным общением становятся всё более размытыми. Это важный шаг в развитии ИИ, хотя и вызывает этические дискуссии о прозрачности взаимодействия с нейросетями.