Исследователи научили LLM генерировать синтетические данные без лишних затрат токенов

Исследователи из компании и научного института (данные не раскрыты) представили на arXiv архитектуру для генерации синтетических данных с помощью больших языковых моделей (LLM), которая позволяет существенно экономить вычислительные ресурсы. Метод получил название Multi-Stage In-Flight Rejection (MSIFR).

Существующие подходы предполагают полную генерацию ответа модели с последующей фильтрацией по качеству. Это ведёт к тому, что токены тратятся впустую на примеры, которые в итоге отбрасываются. MSIFR решает эту проблему, разбивая процесс генерации на последовательные этапы и проверяя промежуточные результаты с помощью быстрых эвристик.

Алгоритм выявляет арифметические несоответствия, признаки галлюцинаций и нарушения форматирования на ранних стадиях. Как только валидатор обнаруживает брак, генерация прерывается — модель не тратит токены на завершение заведомо некачественного ответа. Авторы формализовали этот процесс как последовательное принятие решений и доказали, что любая нетривиальная политика отбраковки снижает ожидаемый расход токенов.

Тестирование проводилось на пяти моделях, донастроенных под инструкции, и семи бенчмарках рассуждений. В чистом виде MSIFR сокращает потребление токенов на 11–77%, а в комбинации с методами раннего выхода из модели — до 78,2%. При этом точность ответов сохраняется или даже незначительно улучшается.

Ключевое преимущество подхода — он не требует дополнительного обучения или изменения архитектуры модели. Это делает его лёгким для внедрения в существующие пайплайны синтетической генерации данных. Разработчики подчёркивают, что техника особенно полезна для масштабных задач, где каждый процент снижения затрат даёт значительную экономию.

Статья доступна на arXiv под номером 2605.14062. В ней также показано, что условные оценки полезности для отбракованных и сохранённых сэмплов образуют мартингал, что гарантирует отсутствие смещения в итоговом наборе данных.