Трансформер научился классифицировать эллиптические кривые с точностью 99%, воспроизведя эвристику теории чисел

Группа исследователей представила работу, в которой двухслойный трансформер-энкодер научился классифицировать рациональные эллиптические кривые с кондуктором не более 10000 как имеющие ранг 0 или ранг 1. Модель использовала первые 128 нормализованных следов Фробениуса и показала точность более 99% на обоих классах.

Удивительно, но точность осталась практически неизменной на тестовых кривых, не имеющих изогении или квадратичного скручивания относительно тренировочного набора. Это говорит о том, что модель обобщает на новые данные, а не просто запоминает.

Применив методы механистической интерпретируемости, такие как анализ внимания, линейное зондирование, патчинг активаций и анализ нейронных цепей, авторы выявили разреженный контур из 20 нейронов первого слоя MLP, достаточный для предсказания ранга с AUROC 0,992. Этот контур работал как детектор push-pull, разделяя кривые ранга 0 и 1.

Ключевым результатом стало обнаружение совпадения весов входных сигналов главного различающего нейрона с весами эвристики Местре-Нагао: log(p)/(p * log B). Коэффициент Спирмена между этими величинами составил 0,997, а Пирсона — 0,952. Таким образом, модель самостоятельно выучила результат аналитической теории чисел, используя только данные следов Фробениуса.

Дополнительно исследователи отметили, что во всех 50 независимо обученных моделях CLS-токен концентрировал внимание на простых позициях в 2–50 раз чаще, чем на составных. CLS-вложение кодировало log L(E,1) с R? = 0,962 (после контроля кондуктора). Анализ патчинга показал, что веса внимания не связаны с причинным потоком информации.

Все 50 моделей оказались почти идентичны в функциональном пространстве — попарное согласие превышало 98,8%, несмотря на большие различия в пространстве весов. Это указывает на то, что обучение сходится к единому решению.