Параллельный поиск частых наборов на многоядерных ускорителях Intel MIC

Михаил Леонидович Цымблер

doi:10.14529/cmse190104

Abstract

Association rule mining is one of the basic problems of data mining, which supposes finding strong correlations between itemsets in large transaction database. Association rules are generated from frequent itemsets (itemset is frequent if its items frequent occur together in transactions). The DIC (Dynamic Itemset Counting) algorithm is modification of the classical Apriori algorithm of finding frequent itemsets. DIC tries to reduce the number of passes made over the transaction database while keeping the number of itemsets counted in a pass relatively low. The paper addresses the task of accelerating DIC on the Intel MIC (Many Integrated Core) systems in the case when the transaction database fits into the main memory. The paper presents a parallel implementation of DIC based on OpenMP technology and thread-level parallelism. We exploit the bit-based internal layout for transactions and itemsets. This technique simplifies the support count via logical bitwise operation, and allows for vectorization of such a step. Experiments with large synthetic and real databases showed good performance and scalability of the proposed algorithm.

Highlights

Поиск ассоциативных правил предполагает нахождение часто повторяющихся зависимостей в заданном наборе объектов
Достоверность правила показывает, что y \% покупателей, которые приобрели набор A, приобрели также набор B
Accelerating Dynamic Itemset Counting on Intel Many-core Systems // Proceedings of the 40th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO’2017, Opatija, Croatia, May 22–26, 2017

Summary

Обзор работ

Классическим алгоритмом решения задачи поиска частых наборов является алгоритм Apriori [2]. Авторы провели эксперименты на вычислительной системе из 12 узлов, где DIC-OPT показал сублинейное ускорение. В работе [8] представлен алгоритм APM, который является модификацией алгоритма DIC для SMP-систем. Эксперименты, проведенные на вычислительной системе Sun Enterprise 4000 из 12 узлов, показали, что APM опережает параллельные реализации классического алгоритма Apriori. Алгоритм mcEclat [21] является параллельной версией Eclat [23] для сопроцессора Intel Xeon Phi. mcEclat использует представление транзакций в виде вертикальных битовых карт: tid всех транзакций, в которых присутствует данный объект, преобразуются в битовую карту этого объекта, где в соответствующих позициях биты установлены в 1. Эксперименты показали ускорение алгоритма до 100 на 240 нитях сопроцессора, однако реализация не в полной мере использует возможности векторизации вычислений Xeon Phi и не опережает себя на платформе двухпроцессорной системы Intel Xeon. В работах [6, 9, 14] предложены различные последовательные алгоритмы поиска частых наборов на основе использования битовых карт: MAFIA, BitTableFI и BitwiseDIC (версия алгоритма DIC [5]) соответственно

Последовательный алгоритм поиска частых наборов

Проектирование структур данных

Распараллеливание поиска частых наборов

Вычислительные эксперименты

Результаты и обсуждение

Full Text

Published version (

Free)

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Параллельный поиск частых наборов на многоядерных ускорителях Intel MIC

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"

Lead the way for us

Journal: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"	Publication Date: Feb 1, 2019
License type: cc-by

Similar Papers

Parallel Algorithm for Frequent Itemset Mining on Intel Many-core Systems

Journal of Computing and Information Technology | VOL. 26

22 Mar 2019
Journal of Computing and Information Technology | VOL. 26

Accelerating Dynamic Itemset Counting on Intel many-core systems

-

01 May 2017
01 May 2017

Discovery of Time Series Motifs on Intel Many-Core Systems
M L Zymbler ... Ya A Kraeva
Lobachevskii Journal of Mathematics | VOL. 40
M L Zymbler, et. al.M L Zymbler ... Ya A Kraeva
01 Dec 2019
Lobachevskii Journal of Mathematics | VOL. 40

Time Series Discord Discovery on Intel Many-Core Systems
Mikhail Zymbler ... Mikhail Kipnis
-
Mikhail Zymbler, et. al.Mikhail Zymbler ... Mikhail Kipnis
01 Jan 2019
01 Jan 2019

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Параллельный поиск частых наборов на многоядерных ускорителях Intel MIC

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"