Языковые модели научились самостоятельно открывать понятие нуля — шаг к новым математическим открытиям

Нейросетевые системы ИИ всё чаще рассматриваются как инструмент для расширения математических знаний человека. Ключевой вопрос — могут ли такие модели выходить за пределы своих обучающих данных. В новой работе, опубликованной на arXiv, учёные изучили, способны ли языковые модели самостоятельно открыть понятие нуля — фундаментальную математическую абстракцию.

В качестве тестовой задачи использовалась простая арифметика. Моделям нужно было понять, что означает сложение с нулём и как ведёт себя вычитание, приводящее к нулю. Оказалось, что модели размера GPT-2 не могут выполнить такое обобщение в момент тестирования, независимо от того, проходили они языковую предтренировку или нет.

Однако после обучения на десятках или сотнях примеров с нулём модели значительно улучшали свои показатели. Учёные отметили, что языковая предтренировка снижает количество требуемых примеров примерно на 50%. Это означает, что языковые способности помогают нейросетям осваивать новые математические концепции.

Авторы подчёркивают, что математические открытия требуют сильной формы обобщения за пределами распределения — способности выдвигать гипотезы о действительно новых структурах, потенциально более мощных, чем изученные. Ранее предполагалось, что языковые навыки человека поддерживают такие обобщения. Данное исследование показывает, что аналогичный механизм может работать и в искусственных нейронных сетях.

Хотя модель GPT-2 не смогла открыть ноль с нуля, её способность учиться на нескольких примерах свидетельствует о потенциале языковых моделей для математических открытий. Работа вносит вклад в понимание того, как ИИ может расширять границы человеческого знания.