Исследователи научили LLM генерировать синтетические данные без лишних затрат токенов

Редакция RusNews 16-май, 11:10 Наука 1 Искусственный интеллект

Исследователи из компании и научного института (данные не раскрыты) представили на arXiv архитектуру для генерации синтетических данных с помощью больших языковых моделей (LLM), которая позволяет существенно экономить вычислительные ресурсы. Метод получил название Multi-Stage In-Flight Rejection (MSIFR).

Существующие подходы предполагают полную генерацию ответа модели с последующей фильтрацией по качеству. Это ведёт к тому, что токены тратятся впустую на примеры, которые в итоге отбрасываются. MSIFR решает эту проблему, разбивая процесс генерации на последовательные этапы и проверяя промежуточные результаты с помощью быстрых эвристик.

Алгоритм выявляет арифметические несоответствия, признаки галлюцинаций и нарушения форматирования на ранних стадиях. Как только валидатор обнаруживает брак, генерация прерывается — модель не тратит токены на завершение заведомо некачественного ответа. Авторы формализовали этот процесс как последовательное принятие решений и доказали, что любая нетривиальная политика отбраковки снижает ожидаемый расход токенов.

Тестирование проводилось на пяти моделях, донастроенных под инструкции, и семи бенчмарках рассуждений. В чистом виде MSIFR сокращает потребление токенов на 11–77%, а в комбинации с методами раннего выхода из модели — до 78,2%. При этом точность ответов сохраняется или даже незначительно улучшается.

Ключевое преимущество подхода — он не требует дополнительного обучения или изменения архитектуры модели. Это делает его лёгким для внедрения в существующие пайплайны синтетической генерации данных. Разработчики подчёркивают, что техника особенно полезна для масштабных задач, где каждый процент снижения затрат даёт значительную экономию.

Статья доступна на arXiv под номером 2605.14062. В ней также показано, что условные оценки полезности для отбракованных и сохранённых сэмплов образуют мартингал, что гарантирует отсутствие смещения в итоговом наборе данных.

Исследователи научили LLM генерировать синтетические данные без лишних затрат токенов

Разделы

Навигация

Теги

Исследователи научили LLM генерировать синтетические данные без лишних затрат токенов

Читайте также

Разделы

Навигация

Теги