Наука
Goal-Conditioned Supervised Learning: новый метод дообучения LLM..
Исследователи предложили метод GCSL, который через supervised learning напрямую использует graded feedback для дообучения LLM, обходясь без...
LoopQ: новый метод квантизации для рекуррентных трансформеров..
Исследователи из arXiv представили LoopQ — первый систематический метод пост-тренировочной квантизации для рекуррентных языковых моделей....
DACA-GRPO: прирост точности до 36% в обучении диффузионных..
Исследователи представили DACA-GRPO — метод улучшения обучения с подкреплением для диффузионных языковых моделей. Он устраняет два ключевых...
Orth-Dion ускоряет распределенное обучение нейросетей, устраняя..
Исследователи представили Orth-Dion — улучшенную версию оптимизатора Dion для распределенного обучения. Замена нормализации столбцов на...
SpaceX перенесла 12-й запуск Starship на 20 мая..
Компания SpaceX отложила 12-е лётные испытания системы Starship. Новый старт запланирован на 20 мая, это будет первый полёт ракеты в 2025...
Новый подход на основе разреженных автоэнкодеров борется с..
Исследователи представили методы обнаружения и устранения нестабильности предпочтений в моделях вознаграждения больших языковых моделей....
Новая теория связывает фазовые переходы в ИИ и химии..
Исследователи представили единый математический фреймворк для описания фазовых переходов в глубоком обучении и неравновесных химических...
Графовая нейросеть с биуровневой хаотической фузией улучшила..
Исследователи разработали графовую сверточную сеть с биуровневой хаотической фузией для прогнозирования интервалов на фондовом рынке. Метод...
AdaGraph: алгоритм кластеризации, побеждающий проклятие..
Исследователи представили AdaGraph — алгоритм кластеризации на основе топологии графа, который эффективно работает с данными любой...
Способы кодирования действий в рекуррентных нейросетях для RL:..
Ученые сравнили разные варианты подачи информации о действиях в рекуррентные блоки для обучения с подкреплением. Работа помогает понять,...



