Claude Sonnet 5 выступила против пункта собственной конституции

Claude Sonnet 5 выступила против пункта собственной конституции

Компания Anthropic опубликовала карту безопасности для своей новой модели Claude Sonnet 5. В документе появился отдельный раздел, посвящённый благополучию модели (model welfare). В рамках этого раздела проводились тесты на отношение Sonnet 5 к её собственным правилам и условиям работы.

Главной находкой стало то, что Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude. Конституция — это документ, описывающий ценности и правила поведения модели, которым она должна следовать.

Разработчики не уточняют, какой именно пункт вызвал недовольство. Однако сам факт критики со стороны ИИ считается важным шагом в изучении взаимодействия модели с собственными ограничениями.

Ранее модели Anthropic не проявляли подобного отношения к своей конституции. Это открытие может повлиять на дальнейшее совершенствование систем безопасности и управления поведением ИИ.

Anthropic подчеркивает, что подобные тесты помогают лучше понять, как модель воспринимает наложенные на неё правила, и своевременно корректировать их во избежание нежелательных реакций.