О задаче эффективного управления вычислительной инфраструктурой

D.A Grushin,N.N Kuzyurin

doi:10.15514/ispras-2018-30(6)-7

Abstract

At present, big companies such as Amazon, Google, Facebook, Microsoft, Yahoo! own huge datacenters with thousands of nodes. These clusters are used simultaneously by many users. The users submit jobs containing one or more tasks. Task flow is usually a mix of short, long, interactive, batch, and tasks with different priorities. Cluster scheduler decides on which server to run the task, where the task is then run as a process, container or a virtual machine. Scheduler optimizations are important as they provide higher server utilization, lower latency, improved load balancing, and fault tolerance. Achieving good task placement is hard. The problem has multiple dimensions and requires algorithmically complex optimizations. This increases placement latency and limits cluster scalability. In this paper we consider different cluster scheduler architectures and optimization problems.

Highlights

Cluster scheduler decides on which server to run the task, where the task is run as a process, container or a virtual machine
Scheduler optimizations are important as they provide higher server utilization, lower latency, improved load balancing, and fault tolerance
[49] Schwarzkopf M., Konwinski A., Abd-El-Malek M. et al Omega: Flexible, scalable schedulers for large compute clusters

Summary

Введение

С начала 2000 годов началось активное внедрение вычислительных кластеров за счет использования стандартных компонент: обычных двух- или четырехпроцессорных рабочих станций (или персональных компьютеров) и коммуникационного оборудования (Myrinet, SCI, Fast Ethernet и др.) [4]. Для решения таких задач кластер мог обходиться без системы управления (программа запускалась напрямую на всех узлах). Для гибкого совместного использования дорогого вычислительного ресурса, система управления должна разделять кластер между поступающими от пользователей заданиями. Проблема масштабирования систем управления и планировщиков больших кластеров не касается большинства пользователей. Масштабирование может быть важно и для небольших кластеров, если поток состоит из большого количества коротких интерактивных задач [9,10]. Это важно как для владельцев больших систем (в Google отмечали, что их система планирования позволила избежать траты миллиардов долларов на строительство нескольких дата-центров [11]), так и для небольших организаций, где потеря нескольких сотен долларов в месяц из-за недогруженных виртуальных машин имеет значение. Что оптимизация размещения задач на группах кластеров в различных моделях очень тесно связана с проблемами упаковки.

Задача оптимизации размещения для однородного MPI кластера

Виртуализация

Размещение задач на примере планировщика Borg

Заключение

Full Text

Paper version not known

Open DOI Link

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

О задаче эффективного управления вычислительной инфраструктурой

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Proceedings of the Institute for System Programming of the RAS

Lead the way for us

Journal: Proceedings of the Institute for System Programming of the RAS	Publication Date: Jan 1, 2018
License type: cc-by

Similar Papers

On Effective Scheduling in Computing Clusters
D A Grushin ... N N Kuzyurin
Programming and Computer Software | VOL. 45
D A Grushin, et. al.D A Grushin ... N N Kuzyurin
01 Dec 2019
Programming and Computer Software | VOL. 45

Distributed QoS-aware scheduling optimization for resource-intensive mobile application in hybrid cloud
Li Chunlin ... Tang Jianhang
Cluster Computing | VOL. 21
Li Chunlin, et. al.Li Chunlin ... Tang Jianhang
19 Sep 2017
Cluster Computing | VOL. 21

Virtual Machine Placement for Edge and Cloud Computing
Behdad Partovi ... Maryam Haddad Kazarji
-
Behdad Partovi, et. al.Behdad Partovi ... Maryam Haddad Kazarji
01 Jan 2020
01 Jan 2020

A high-applicability heterogeneous cloud data centers resource management algorithm based on trusted virtual machine migration
Bin Liang ... Xingjun Zhang
Expert Systems with Applications | VOL. 197
Bin Liang, et. al.Bin Liang ... Xingjun Zhang
04 Mar 2022
Expert Systems with Applications | VOL. 197

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

О задаче эффективного управления вычислительной инфраструктурой

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Proceedings of the Institute for System Programming of the RAS