Abstract

Association rule mining is one of the basic problems of data mining, which supposes finding strong correlations between itemsets in large transaction database. Association rules are generated from frequent itemsets (itemset is frequent if its items frequent occur together in transactions). The DIC (Dynamic Itemset Counting) algorithm is modification of the classical Apriori algorithm of finding frequent itemsets. DIC tries to reduce the number of passes made over the transaction database while keeping the number of itemsets counted in a pass relatively low. The paper addresses the task of accelerating DIC on the Intel MIC (Many Integrated Core) systems in the case when the transaction database fits into the main memory. The paper presents a parallel implementation of DIC based on OpenMP technology and thread-level parallelism. We exploit the bit-based internal layout for transactions and itemsets. This technique simplifies the support count via logical bitwise operation, and allows for vectorization of such a step. Experiments with large synthetic and real databases showed good performance and scalability of the proposed algorithm.

Highlights

  • Поиск ассоциативных правил предполагает нахождение часто повторяющихся зависимостей в заданном наборе объектов

  • Достоверность правила показывает, что y \% покупателей, которые приобрели набор A, приобрели также набор B

  • Accelerating Dynamic Itemset Counting on Intel Many-core Systems // Proceedings of the 40th International Convention on Information and Communication Technology, Electronics and Microelectronics, MIPRO’2017, Opatija, Croatia, May 22–26, 2017

Read more

Summary

Обзор работ

Классическим алгоритмом решения задачи поиска частых наборов является алгоритм Apriori [2]. Авторы провели эксперименты на вычислительной системе из 12 узлов, где DIC-OPT показал сублинейное ускорение. В работе [8] представлен алгоритм APM, который является модификацией алгоритма DIC для SMP-систем. Эксперименты, проведенные на вычислительной системе Sun Enterprise 4000 из 12 узлов, показали, что APM опережает параллельные реализации классического алгоритма Apriori. Алгоритм mcEclat [21] является параллельной версией Eclat [23] для сопроцессора Intel Xeon Phi. mcEclat использует представление транзакций в виде вертикальных битовых карт: tid всех транзакций, в которых присутствует данный объект, преобразуются в битовую карту этого объекта, где в соответствующих позициях биты установлены в 1. Эксперименты показали ускорение алгоритма до 100 на 240 нитях сопроцессора, однако реализация не в полной мере использует возможности векторизации вычислений Xeon Phi и не опережает себя на платформе двухпроцессорной системы Intel Xeon. В работах [6, 9, 14] предложены различные последовательные алгоритмы поиска частых наборов на основе использования битовых карт: MAFIA, BitTableFI и BitwiseDIC (версия алгоритма DIC [5]) соответственно

Последовательный алгоритм поиска частых наборов
Проектирование структур данных
Распараллеливание поиска частых наборов
Вычислительные эксперименты
Результаты и обсуждение
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call