Наука

Goal-Conditioned Supervised Learning: новый метод дообучения LLM превосходит SFT и DPO

Goal-Conditioned Supervised Learning: новый метод дообучения LLM..

Исследователи предложили метод GCSL, который через supervised learning напрямую использует graded feedback для дообучения LLM, обходясь без...


LoopQ: новый метод квантизации для рекуррентных трансформеров

LoopQ: новый метод квантизации для рекуррентных трансформеров..

Исследователи из arXiv представили LoopQ — первый систематический метод пост-тренировочной квантизации для рекуррентных языковых моделей....


DACA-GRPO: прирост точности до 36% в обучении диффузионных языковых моделей

DACA-GRPO: прирост точности до 36% в обучении диффузионных..

Исследователи представили DACA-GRPO — метод улучшения обучения с подкреплением для диффузионных языковых моделей. Он устраняет два ключевых...


Orth-Dion ускоряет распределенное обучение нейросетей, устраняя геометрическое искажение

Orth-Dion ускоряет распределенное обучение нейросетей, устраняя..

Исследователи представили Orth-Dion — улучшенную версию оптимизатора Dion для распределенного обучения. Замена нормализации столбцов на...


SpaceX перенесла 12-й запуск Starship на 20 мая

SpaceX перенесла 12-й запуск Starship на 20 мая..

Компания SpaceX отложила 12-е лётные испытания системы Starship. Новый старт запланирован на 20 мая, это будет первый полёт ракеты в 2025...


Новый подход на основе разреженных автоэнкодеров борется с нестабильностью предпочтений в LLM

Новый подход на основе разреженных автоэнкодеров борется с..

Исследователи представили методы обнаружения и устранения нестабильности предпочтений в моделях вознаграждения больших языковых моделей....


Новая теория связывает фазовые переходы в ИИ и химии

Новая теория связывает фазовые переходы в ИИ и химии..

Исследователи представили единый математический фреймворк для описания фазовых переходов в глубоком обучении и неравновесных химических...


Графовая нейросеть с биуровневой хаотической фузией улучшила прогнозы фондового рынка

Графовая нейросеть с биуровневой хаотической фузией улучшила..

Исследователи разработали графовую сверточную сеть с биуровневой хаотической фузией для прогнозирования интервалов на фондовом рынке. Метод...


AdaGraph: алгоритм кластеризации, побеждающий проклятие размерности

AdaGraph: алгоритм кластеризации, побеждающий проклятие..

Исследователи представили AdaGraph — алгоритм кластеризации на основе топологии графа, который эффективно работает с данными любой...


Способы кодирования действий в рекуррентных нейросетях для RL: новое исследование

Способы кодирования действий в рекуррентных нейросетях для RL:..

Ученые сравнили разные варианты подачи информации о действиях в рекуррентные блоки для обучения с подкреплением. Работа помогает понять,...