Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма

Дмитрий Дмитриевич Янцен ,Михаил Леонидович Цымблер

doi:10.14529/cmse140402

Abstract

Sampling is a popular approach to very large databases processing in a wide range of applications, e.g. data mining, histograms construction, query execution cost estimation, etc. Use of either the sample instead of the original database can reduce the accuracy of the results, but offset by a reduction of time executing processing. Representative sampling allows you to save the sample of certain characteristics of the database. However, existing algorithms for representative sampling can not be used for pas-parallel database systems because it does not take into account the characteristics of the data distribution fissionable by the compute nodes of the cluster system. In this paper we propose al-representative sampling algorithm for parallel relational database systems based on the slice of parallelism. The results of computational experiments on the proposed algorithm, showing adequate maintenance of representativity database properties distributed across the nodes of a cluster system.

Highlights

Обзор работ в области сэмплинга данныхВ настоящее время существует большое количество подходов к сэмплингу баз данных, которые, в основном, ориентированы на конкретные приложения: тестирование программного обеспечения, интеллектуальный анализ данных, нахождение приблизительного результата исполнения запросов и др. [10]
В настоящее время сэмплинг применяется в широком спектре приложений, связанных с обработкой сверхбольших баз данных: интеллектуальный анализ данных [23, 25], построение гистограмм [18], генерация баз данных для тестирования программного обеспечения [26], приблизительное исполнение запросов [5] и др
Existing algorithms for representative sampling can not be used for pas-parallel database systems because it does not take into account the characteristics of the data distribution fissionable by the compute nodes of the cluster system

Summary

Обзор работ в области сэмплинга данных

В настоящее время существует большое количество подходов к сэмплингу баз данных, которые, в основном, ориентированы на конкретные приложения: тестирование программного обеспечения, интеллектуальный анализ данных, нахождение приблизительного результата исполнения запросов и др. [10]. Как правило, ориентированы на конкретные алгоритмы интеллектуального анализа, которые будут использовать сэмпл в качестве входных данных, и могут применяться только для реляционных баз данных, состоящих из единственного отношения [14, 19]. Для каждого кортежа в каждом отношении оригинальной базы данных вычисляется вероятность вставки данного кортежа в сэмпл, которая зависит от вероятностей вставки в сэмпл кортежей, ссылающихся на этот кортеж. После этого алгоритм обеспечивает целостность данных в сэмпле посредством сэмплинга ссылающихся и ссылаемых кортежей стартового отношения. Разработанный нами алгоритм репрезентативного сэмплинга для параллельных систем баз данных, представленный в разделе 2, является модернизированной версией алгоритма CoDS. На этапе анализа диаграмм рассеивания осуществляется отбор кортежей стартового отношения, которые будут включены в сэмпл. На этапе финального заполнения сэмпла в отношения базы данных добавляются кортежи, которые связаны с кортежами, отобранными в стартовое отношение посредством внешних ключей. В следующем разделе мы покажем, каким образом можно модернизировать алгоритм CoDS для параллельных реляционных систем баз данных на основе фрагментного параллелизма

Алгоритм pCoDS репрезентативного сэмплинга параллельных систем баз данных

Вычислительные эксперименты

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"

Lead the way for us

Journal: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"	Publication Date: Nov 1, 2014
License type: cc-by

Similar Papers

Parallel Database Techniques

Scalable Computing Practice and Experience | VOL. 4

03 Jan 2001
Scalable Computing Practice and Experience | VOL. 4

Graph-Based Parallel Query Processingand Optimization Strategies for Object-Oriented Databases
Stanley Y.W Su ... Ying Huang
-
Stanley Y.W Su, et. al.Stanley Y.W Su ... Ying Huang
01 Jan 1998
01 Jan 1998

Heuristic optimization of speedup and benefit/cost for parallel database scans on shared-memory multiprocessors
M Rys ... G Weikum
-
M Rys, et. al.M Rys ... G Weikum
01 Apr 1994
01 Apr 1994

Uniform partitioning of relations using histogram equalization framework: An efficient parallel hash-based join
Ung Kyu Park ... Tag Gon Kim
Information Processing Letters | VOL. 55
Ung Kyu Park, et. al. Ung Kyu Park ... Tag Gon Kim
01 Sep 1995
Information Processing Letters | VOL. 55

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Алгоритм репрезентативного сэмплинга для систем баз данных на основе фрагментного параллелизма

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"