Beyond ROUGE: A Comprehensive Evaluation Metric for Abstractive Summarization Leveraging Similarity, Entailment, and Acceptability

Mohammed Khalid Hilmi Briman,Beytullah Yildiz

doi:10.1142/s0218213024500179

Abstract

A vast amount of textual information on the internet has amplified the importance of text summarization models. Abstractive summarization generates original words and sentences that may not exist in the source document to be summarized. Such abstractive models may suffer from shortcomings such as linguistic acceptability and hallucinations. Recall-Oriented Understudy for Gisting Evaluation (ROUGE) is a metric commonly used to evaluate abstractive summarization models. However, due to its n-gram-based approach, it ignores several critical linguistic aspects. In this work, we propose Similarity, Entailment, and Acceptability Score (SEAScore), an automatic evaluation metric for evaluating abstractive text summarization models using the power of state-of-the-art pre-trained language models. SEAScore comprises three language models (LMs) that extract meaningful linguistic features from candidate and reference summaries and a weighted sum aggregator that computes an evaluation score. Experimental results show that our LM-based SEAScore metric correlates better with human judgment than standard evaluation metrics such as ROUGE-N and BERTScore.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Beyond ROUGE: A Comprehensive Evaluation Metric for Abstractive Summarization Leveraging Similarity, Entailment, and Acceptability

Abstract

Talk to us

Similar Papers

More From: International Journal on Artificial Intelligence Tools

Lead the way for us

Similar Papers

A Framework for Word Embedding Based Automatic Text Summarization and Evaluation
Tulu Tilahun Hailu ... Tessfu Geteye Fantaye
Information | VOL. 11
Tulu Tilahun Hailu, et. al.Tulu Tilahun Hailu ... Tessfu Geteye Fantaye
31 Jan 2020
Information | VOL. 11

Reference and Document Aware Semantic Evaluation Methods for Korean Language Summarization
Dongyub Lee ... Jaechoon Jo
-
Dongyub Lee, et. al.Dongyub Lee ... Jaechoon Jo
01 Jan 2020
01 Jan 2020

WIDAR - Weighted Input Document Augmented ROUGE
Raghav Jain ... Vaibhav Mavi
-
Raghav Jain, et. al.Raghav Jain ... Vaibhav Mavi
01 Jan 2021
01 Jan 2021

Abstractive Text Summarization using Pre-Trained Language Model "Text-to-Text Transfer Transformer (T5)"
Qurrota A’Yuna Itsnaini ... Nidal A.M Jabari
ILKOM Jurnal Ilmiah | VOL. 15
Qurrota A’Yuna Itsnaini, et. al.Qurrota A’Yuna Itsnaini ... Nidal A.M Jabari
07 Apr 2023
ILKOM Jurnal Ilmiah | VOL. 15

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Beyond ROUGE: A Comprehensive Evaluation Metric for Abstractive Summarization Leveraging Similarity, Entailment, and Acceptability

Abstract

Talk to us

Similar Papers

More From: International Journal on Artificial Intelligence Tools