PF‐GEMV: Utilization maximizing architecture in fast matrix–vector multiplication for GPT‐2 inference

Hyeji Kim,Yeongmin Lee,Chun‐Gi Lyuh

doi:10.4218/etrij.2024-0111

Abstract

AbstractOwing to the widespread advancement of transformer‐based artificial neural networks, artificial intelligence (AI) processors are now required to perform matrix–vector multiplication in addition to the conventional matrix–matrix multiplication. However, current AI processor architectures are optimized for general matrix–matrix multiplications (GEMMs), which causes significant throughput degradation when processing general matrix–vector multiplications (GEMVs). In this study, we proposed a port‐folding GEMV (PF‐GEMV) scheme employing multiformat and low‐precision techniques while reusing an outer product‐based processor optimized for conventional GEMM operations. This approach achieves 93.7% utilization in GEMV operations with an 8‐bit format on an 8 8 processor, thus resulting in a 7.5 increase in throughput compared with that of the original scheme. Furthermore, when applied to the matrix operation of the GPT‐2 large model, an increase in speed by 7 is achieved in single‐batch inferences.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

PF‐GEMV: Utilization maximizing architecture in fast matrix–vector multiplication for GPT‐2 inference

Abstract

Talk to us

Similar Papers

More From: ETRI Journal

Lead the way for us

Similar Papers

CORR Synthesis: When Should the Orthopaedic Surgeon Use Artificial Intelligence, Machine Learning, and Deep Learning?
Michael P Murphy ... Nicholas M Brown
Clinical orthopaedics and related research | VOL. 479
Michael P Murphy, et. al.Michael P Murphy ... Nicholas M Brown
17 Feb 2021
Clinical orthopaedics and related research | VOL. 479

Drought Modelling Based on Artificial Intelligence and Neural Network Algorithms: A Case Study in Queensland, Australia
Kavina Dayal ... Ravinesh Deo
-
Kavina Dayal, et. al.Kavina Dayal ... Ravinesh Deo
01 Jan 2017
01 Jan 2017

The Application of Artificial Intelligence – Artificial Neural Networks – in Wastewater Treatment
Xinyi Qiu
E3S Web of Conferences | VOL. 393
Xinyi QiuXinyi Qiu
01 Jan 2023
E3S Web of Conferences | VOL. 393

A LUT-based matrix multiplication using neural networks
Zarrin Tasnim Sworna ... Mubin Ul Haque
-
Zarrin Tasnim Sworna, et. al.Zarrin Tasnim Sworna ... Mubin Ul Haque
01 May 2016
01 May 2016

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

PF‐GEMV: Utilization maximizing architecture in fast matrix–vector multiplication for GPT‐2 inference

Abstract

Talk to us

Similar Papers

More From: ETRI Journal