Soro: первый ИИ-помощник для таджикского языка создан на базе Gemma 3

Группа разработчиков выпустила Soro — семейство специализированных диалоговых больших языковых моделей (LLM) для таджикского языка. Проект ориентирован на практическое применение в условиях ограниченных вычислительных ресурсов и нестабильного интернет-соединения в Таджикистане.

За основу взяты открытые веса Gemma 3. Затем модель прошла дополнительное обучение на собранном корпусе из 1,9 миллиарда токенов — это отфильтрованные веб-тексты, PDF-документы и учебные материалы, соответствующие местной образовательной программе.

Для точной настройки использовалось 40 тысяч примеров в формате «учитель-ученик» (teacher-style). Это позволило адаптировать модель к решению образовательных задач, включая подготовку к вступительным экзаменам в школы и вузы.

Чтобы оценить качество работы, авторы создали собственный набор тестов для таджикского языка, охватывающий общие знания, лингвистические способности и экзаменационные предметы. Тесты опубликованы на платформе Hugging Face.

По результатам тестирования Soro значительно превзошла аналогичные по размеру базовые модели Gemma 3 на таджикских задачах, не потеряв в качестве работы с английским языком. Дополнительно исследователи показали, что 8-битное и 4-битное квантование (FP8 и INT4) сохраняет большинство преимуществ по таджикскому языку, снижая при этом требования к памяти для развёртывания на периферийных устройствах.

Технология уже используется в пилотном проекте в сфере образования Таджикистана, и в планах — масштабирование на школы по всей стране.