Improving Salience-Based Multi-Document Summarization Performance using a Hybrid Sentence Similarity Measure

Kamal Sarkar1 and Sohini Roy Chowdhury2, 1Jadavpur University, India, 2RCC Institute Of Information Technology, India; Kamal Sarkar1 and Sohini Roy Chowdhury2, 1Jadavpur University, India, 2RCC Institute Of Information Technology, India

Improving Salience-Based Multi-Document Summarization Performance using a Hybrid Sentence Similarity Measure

Authors

Kamal Sarkar¹ and Sohini Roy Chowdhury², ¹Jadavpur University, India, ²RCC Institute Of Information Technology, India

Abstract

The process of creating a single summary from a group of related text documents obtained from many sources is known as multi-document summarization. The efficacy of a multidocument summarization system is heavily reliant upon the sentence similarity metric employed t eliminate redundant sentences from the summary, given that the documents may contain redundant information. The sentence similarity measure is also crucial for a graph-based multi-document summarization, where the presence of an edge between two phrases is decided by how similar the two sentences are to one another. To enhance multi-document summarization performance, this study provides a new method for defining a hybrid sentence similarity measure combining a lexical similarity measure and a BERT-based semantic similarity measure. Tests conducted on the benchmark datasets demonstrate how well the proposed hybrid sentence similarity metric is effective for enhancing multi-document summarization performance.

Keywords

Extractive Summarization, Multi-Document Text Summarization, BERT, Hybrid Similarity measure, Semantic Similarity similarity, Lexical similarity

CS&IT Conference Proceedings

Improving Salience-Based Multi-Document Summarization Performance using a Hybrid Sentence Similarity Measure