Abstract
Computation of a Euclidean distance matrix (EDM) is a typical task in a wide spectrum of problems connected with data mining. Currently, many parallel algorithms for this task have been developed for graphical processors. These developments, however, cannot be directly applied to the Intel Many Integrated Core systems. In this paper, we suggest a parallel algorithm for EDM computation on Intel Xeon Phi Knights Landing processor in the case when the input data fit into the main memory. The algorithm exploits block-oriented scheme of computations that allows for the efficient utilization of Intel Xeon Phi vectorization abilities. In the algorithm, we also apply apply a sophisticated data layout to store data points in main memory so as to reduce the number of processor cache misses during EDM computations. Experimental evaluation of the algorithm on real-world and synthetic datasets shows that t is highly scalable and outruns analogues in the case of rectangular matrices with low-dimensional data points.
Highlights
Вычисление матрицы Евклидовых расстояний требуется в широком спектре задач, связанных с интеллектуальным анализом данных
We suggest a parallel algorithm for Euclidean distance matrix (EDM) computation on Intel Xeon Phi Knights Landing processor in the case when the input data fit into the main memory
Rechkalov T.V., Zymbler M.L. A Parallel Algorithm of Euclidean Distance Matrix Computation for the Intel Xeon Phi Knights Landing Many-core Processor
Summary
В работе [20] авторы предложили гетерогенный подход к распараллеливанию алгоритма k-Means, задействующий как процессор, так и сопроцессор Intel Xeon Phi KNC. Что в работах-предшественниках [9, 20] используются многоядерные системы архитектуры Intel MIC предыдущего поколения и выгрузку данных и вычислений, однако в описании экспериментального исследования алгоритмов стадия вычисления МЕР не отделяется от других вычислений, затрудняя сравнение производительности и масштабируемости вычисления МЕР с другими решениями. В работе [12] авторы для вычисления МЕР на процессоре Intel Xeon Phi KNL используют параллельный алгоритм, представленный в Алг. Начальные адреса исходных данных выравниваются таким образом, чтобы быть кратными ширине векторного регистра (VPU, Vector Processing Unit) системы Intel Xeon Phi. Для решения этой проблемы авторы дополняют точки входных данных фиктивными нулевыми координатами таким образом, чтобы размерность точек была кратна ширине векторного регистра, в силу чего цикл разрешается компилятором как две векторные операции. В следующем разделе будет рассмотрено применение компоновки данных в памяти для ускорения вычисления МЕР
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
More From: Bulletin of the South Ural State University. Series "Computational Mathematics and Software Engineering"
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.