Abstract
Рассмотрен подход к организации репозитория метаданных как одного из элементов системы оценки качества данных. Для формирования репозитория предлагается использовать объектно-ориентированную модель данных, обогащенную проверками качества данных. Дано описание основных элементов репозитория такого типа, а также описан подход по привязке проверок качества данных к объектам модели данных. Предложен способ хранения рассмотренного репозитория метаданных, разработаны специальные алгоритмы для его обработки, включая алгоритм «распаковки» атрибутов класса и алгоритм определения актуальных проверок данных с учетом возможных переопределений. На основе описанных теоретических положений был реализован прототип репозитория метаданных. Указанный прототип был использован для организации проверок на примере задачи оценки качества данных операторов, осуществляющих обработку персональных данных. В сравнении с реализацией репозитория метаданных на основе физической модели данных, применение описанного в настоящем исследовании подхода отличается сокращением объема описанных атрибутов и проверок качества данных на 23% и 27% соответственно при одновременном сохранении количества реально запускаемых («реализованных») проверок. Исследуемый в статье подход может быть полезен в практических задачах анализа качества данных как потенциальный способ снижения трудозатрат на управление проверками качества. The paper considers the approach to organizing a metadata repository as one of the elements of the data quality assessment system. An object-oriented data model enriched with data quality checks is proposed for repository formation. A description of the key repository elements is given, along with an approach to linking data quality checks to objects in the data model. The article provides a method for storing the discussed metadata repository and special algorithms for its processing, including the "unpacking" algorithm for class attributes and the algorithm for determining the relevant data checks considering possible overrides. Based on the described theoretical propositions, a prototype of the metadata repository was implemented. The prototype was used to organize checks for assessing the data quality of personal data operator’s registry. In comparison with the implementation of a metadata repository based on a physical data model, the application of the approach described in this research results in a reduction of attribute and data quality check description by 23% and 27%, respectively, while maintaining the same quantity of executed checks. The investigated approach can be useful in practical tasks related to data quality analysis as a potential way to reduce the workload of data quality check management.
Published Version (
Free)
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have