Abstract

The problem of mapping the parallel task to the nodes of computing cluster is considered. MPI software with non-uniform communication and heterogeneous interconnect of computing cluster require to appropriate parallel processes mapping for optimization of data exchange. The graph mapping algorithm is developed. It uses parallel program representation as a task graph and cluster topology representation as system graph. The proposed optimization technique is tested on synthetic benchmark and on real QBox software to study its efficiency on large number of computing cores. The positive results of optimization are achieved and the summary is presented in the paper. Speedup of 17–20% is obtained on scalable benchmarks using 300–4800 parallel processes.

Highlights

  • Проблема отображения параллельной программы на архитектуру вычислительной системы с целью уменьшения времени обмена данными рассмотрена в ряде работ отечественных [1, 2] и зарубежных [3,4,5] авторов

  • Конфигурация для тестирования состоит из двух узлов с установленными сопроцессорами Intel® Xeon PhiTM, содержащими по 60 ядер, доступных для вычислений

  • MPI software with non-uniform communication and heterogeneous interconnect of computing cluster require to appropriate parallel processes mapping for optimization of data exchange

Read more

Summary

Постановка задачи

Где — набор вершин графа (процессы), — набор связей (взаимодействие процессов), — частота обмена данными, — объем обмениваемых данных, — число связей. Обозначим граф системы как ( , ), = , , = 1, ... Где — множество вершин (соответствующих вычислительным ядрам центральных процессоров или сопроцессоров), — множество ребер (каналы передачи данных), —. В первом приближении в графе системы передача данных возможна между любой парой вершин, т.е. Все ребра графа задачи взвешены объемом обмениваемых данных между процессами, которым соответствуют вершины ребра. Граф системы взвешен коэффициентом задержки канала связи. Что сетевое взаимодействие заведомо медленнее взаимодействия через общую память, определено как. Целевая функция вычисляется как сумма произведений весов ребер:. Для решения задачи отображения необходимо построить граф задачи и граф системы, разработать алгоритм поиска отображения графа задачи на граф системы с целью минимизации суммы произведений весов ребер

Алгоритм отображения
Алгоритм полного перебора
Алгоритм с «жадной» стратегией
Итеративная процедура улучшения решения
Описание синтетического теста
Запуск тестов
Синтетический тест для двух узлов кластера с сопроцессорами
Синтетический тест для 10 узлов с InfiniBand интерконнектом
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.