DeepSeek-R1-8B дообучили для финансового NER: LoRA и NEFTune дали F1 0.912
Научная группа представила результаты дообучения открытой языковой модели DeepSeek-R1-8B для задачи финансового распознавания именованных сущностей (NER). В работе использовались два эффективных метода — Low-Rank Adaptation (LoRA) и Noisy Embedding Fine-Tuning (NEFTune). Целью было повышение точности выделения финансовых сущностей из неструктурированных отчетов и новостей.
Корпус для обучения состоял из 1693 размеченных предложений, каждое из которых было преобразовано в тройку [инструкция-вход-выход]. LoRA-матрицы встраивались в слои трансформера DeepSeek-R1-8B, а NEFTune вносил равномерный шум в векторные представления для улучшения обобщения.
Эксперименты показали, что LoRA-адаптированная версия DeepSeek-R1-8B достигает микропоказателя F1 0.901 на семи типах сущностей: компания, дата, местоположение, денежная сумма, персона, продукт и количество. Добавление NEFTune позволило поднять результат до 0.912, что превосходит показатели таких моделей, как Llama3-8B, Qwen3-8B, Baichuan2-7B, T5 и BERT-Base.
Применение низкоранговой адаптации и шумового дообучения позволяет существенно сократить вычислительные затраты по сравнению с полным дообучением, сохраняя при этом высокую точность. Это особенно важно для финансового сектора, где требуется обработка больших объемов текстов с минимальными ресурсами.
Исследование подтверждает, что методы параметрически эффективного дообучения (PEFT) в сочетании со специальными техниками регуляризации способны значительно улучшить производительность моделей на узкоспециализированных задачах. Результаты работы опубликованы на платформе arXiv.



