Data Selection Curriculum for Abstractive Text Summarization

Shichao Sun; Ruifeng Yuan; Jianfei He; Ziqiang Cao; Wenjie Li; Xiaohua Jia

Data Selection Curriculum for Abstractive Text Summarization

Shichao Sun, Ruifeng Yuan, Jianfei He, Ziqiang Cao, Wenjie Li, Xiaohua Jia

Published: 07 Oct 2023, Last Modified: 01 Dec 2023EMNLP 2023 FindingsEveryoneRevisionsBibTeX

Submission Type: Regular Short Paper

Submission Track: Summarization

Keywords: Data Selection, Curriculum Learning, Abstractive Text Summarization

TL;DR: Select and sort data for training a better abstractive text summarization model.

Abstract: Abstractive Text Summarization (ATS) models are commonly trained using large-scale data that is randomly shuffled. However, the impact of data selection and data ordering on ATS models remains a relatively unexplored research area, where a significant challenge lies in accurately assessing the learning difficulty of each training instance. This study introduces a Data Selection Curriculum (DSC) scoring system that incorporates both the difficulty of improving ATS model via an instance and the expected performance on this instance. By selectively excluding excessively simple and overly complex instances, the training efficiency can be optimized. Furthermore, curriculum learning is integrated to accelerate convergence and improve performance by gradually increasing the learning difficulty, inspired by human learners. Experimental results on the CNN/DailyMail dataset demonstrate that our approach surpasses potent baselines, utilizing a mere 20\% of the available instances.

Submission Number: 1443

Loading