Abstract

Sampling is a popular approach to very large databases processing in a wide range of applications, e.g. data mining, histograms construction, query execution cost estimation, etc. Use of either the sample instead of the original database can reduce the accuracy of the results, but offset by a reduction of time executing processing. Representative sampling allows you to save the sample of certain characteristics of the database. However, existing algorithms for representative sampling can not be used for pas-parallel database systems because it does not take into account the characteristics of the data distribution fissionable by the compute nodes of the cluster system. In this paper we propose al-representative sampling algorithm for parallel relational database systems based on the slice of parallelism. The results of computational experiments on the proposed algorithm, showing adequate maintenance of representativity database properties distributed across the nodes of a cluster system.

Highlights

  • Обзор работ в области сэмплинга данныхВ настоящее время существует большое количество подходов к сэмплингу баз данных, которые, в основном, ориентированы на конкретные приложения: тестирование программного обеспечения, интеллектуальный анализ данных, нахождение приблизительного результата исполнения запросов и др. [10]

  • В настоящее время сэмплинг применяется в широком спектре приложений, связанных с обработкой сверхбольших баз данных: интеллектуальный анализ данных [23, 25], построение гистограмм [18], генерация баз данных для тестирования программного обеспечения [26], приблизительное исполнение запросов [5] и др

  • Existing algorithms for representative sampling can not be used for pas-parallel database systems because it does not take into account the characteristics of the data distribution fissionable by the compute nodes of the cluster system

Read more

Summary

Обзор работ в области сэмплинга данных

В настоящее время существует большое количество подходов к сэмплингу баз данных, которые, в основном, ориентированы на конкретные приложения: тестирование программного обеспечения, интеллектуальный анализ данных, нахождение приблизительного результата исполнения запросов и др. [10]. Как правило, ориентированы на конкретные алгоритмы интеллектуального анализа, которые будут использовать сэмпл в качестве входных данных, и могут применяться только для реляционных баз данных, состоящих из единственного отношения [14, 19]. Для каждого кортежа в каждом отношении оригинальной базы данных вычисляется вероятность вставки данного кортежа в сэмпл, которая зависит от вероятностей вставки в сэмпл кортежей, ссылающихся на этот кортеж. После этого алгоритм обеспечивает целостность данных в сэмпле посредством сэмплинга ссылающихся и ссылаемых кортежей стартового отношения. Разработанный нами алгоритм репрезентативного сэмплинга для параллельных систем баз данных, представленный в разделе 2, является модернизированной версией алгоритма CoDS. На этапе анализа диаграмм рассеивания осуществляется отбор кортежей стартового отношения, которые будут включены в сэмпл. На этапе финального заполнения сэмпла в отношения базы данных добавляются кортежи, которые связаны с кортежами, отобранными в стартовое отношение посредством внешних ключей. В следующем разделе мы покажем, каким образом можно модернизировать алгоритм CoDS для параллельных реляционных систем баз данных на основе фрагментного параллелизма

Алгоритм pCoDS репрезентативного сэмплинга параллельных систем баз данных
Вычислительные эксперименты

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.