Исследователи выявили опасное взаимодействие формата и схемы при построении графов знаний из CSV

Исследователи из международной группы представили на arXiv preprint, в котором изучается влияние формата сериализации и схемы ограничений на качество графов знаний, построенных из статистических таблиц CSV. Работа сфокусирована на временных рядах по странам и годам — распространённом формате данных на открытых порталах.

Авторы ввели понятие «сцепление формата и ограничений» (format-constraint coupling). Они показали, что совместный эффект формата и схемы экстракции превышает сумму независимых эффектов на величину до +1.180 (измерение по шкале 2x2 факторного дизайна на шести наборах данных). Статистически значимые положительные эффекты зафиксированы на 4 из 6 наборов данных, особенно на широких матрицах типа II.

Более критично: применение схемы к несоответствующему формату может привести к «катастрофическому несоответствию» (catastrophic mismatch). В таких случаях покрытие фактов падает ниже базового уровня на 4 из 6 наборов данных из-за раздувания сущностей или полного отказа от извлечения. Этот эффект объясняется механизмом «поверхностно-форменного закрепления» (surface-form anchoring), связанным с использованием имён столбцов.

Исследователи провели серию экспериментов с различными парами формат-схема, средами GraphRAG и семействами LLM. Во всех случаях, кроме одного семейства LLM, наблюдался одинаковый вектор изменений. Также выявлен диагностический след: три стандартных режима поиска в значительной степени маскируют проблемы качества, тогда как прямой доступ к графу обнажает разрывы от 0 до +47.6 процентных пунктов.

Для поддержки оценки с учётом точности авторы опубликовали бенчмарк CSVFidelity-Bench. Он включает 15 наборов данных (11 матриц типа II, 4 таблицы типа III) и 1892 верифицированных факта (gold standard) из 6 предметных областей.

Результаты имеют практическое значение для разработчиков систем извлечения знаний и порталов открытых данных. Они подчёркивают важность согласования формата и схемы, а также необходимость более точных метрик для оценки качества графов знаний.