A novel framework for generic Spark workload characterization and similar pattern recognition using machine learning

Mariano Garralda-Barrio,Carlos Eiras-Franco,Verónica Bolón-Canedo

doi:10.1016/j.jpdc.2024.104881

Mariano Garralda-Barrio, Carlos Eiras-Franco + Show 1 more

Open Access

https://doi.org/10.1016/j.jpdc.2024.104881

Copy DOI

Abstract

Comprehensive workload characterization plays a pivotal role in comprehending Spark applications, as it enables the analysis of diverse aspects and behaviors. This understanding is indispensable for devising downstream tuning objectives, such as performance improvement. To address this pivotal issue, our work introduces a novel and scalable framework for generic Spark workload characterization, complemented by consistent geometric measurements. The presented approach aims to build robust workload descriptors by profiling only quantitative metrics at the application task-level, in a non-intrusive manner. We expand our framework for downstream workload pattern recognition by incorporating unsupervised machine learning techniques: clustering algorithms and feature selection. These techniques significantly improve the process of grouping similar workloads without relying on predefined labels. We effectively recognize 24 representative Spark workloads from diverse domains, including SQL, machine learning, web search, graph, and micro-benchmarks, available in HiBench. Our framework achieves a high accuracy F-Measure score of up to 90.9% and a Normalized Mutual Information of up to 94.5% in similar workload pattern recognition. These scores significantly outperform the results obtained in a comparative analysis with an established workload characterization approach in the literature.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

A novel framework for generic Spark workload characterization and similar pattern recognition using machine learning

Abstract

Talk to us

Similar Papers

More From: Journal of Parallel and Distributed Computing

Lead the way for us

Journal: Journal of Parallel and Distributed Computing	Publication Date: Mar 26, 2024
License type: cc-by-nc

Similar Papers

Artificial intelligence and pattern recognition techniques in microscope image processing and analysis
Noël Bonnet
Advances in Imaging and Electron Physics | VOL. 114
Noël BonnetNoël Bonnet
01 Jan 1999
Advances in Imaging and Electron Physics | VOL. 114

Recognition of similar patterns in popular Hindi Jazz songs by music data mining
Mitali Bagul ... K Saravanakumar
-
Mitali Bagul, et. al.Mitali Bagul ... K Saravanakumar
01 Nov 2014
01 Nov 2014

Application of Fourier transform to preprocessing chromatographic fingerprints of traditional Chinese medicine
Long Jiao ... Hua Li
Chemometrics and Intelligent Laboratory Systems | VOL. 140
Long Jiao, et. al.Long Jiao ... Hua Li
22 Nov 2014
Chemometrics and Intelligent Laboratory Systems | VOL. 140

Review of Research on Biomedical Image Processing Based on Pattern Recognition
...
-
, et. al. ...
21 Jan 2020
21 Jan 2020

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

A novel framework for generic Spark workload characterization and similar pattern recognition using machine learning

Abstract

Talk to us

Similar Papers

More From: Journal of Parallel and Distributed Computing