Resource for Error Analysis in Text Simplification: New Taxonomy and Test Collection

Benjamin Vendeville; Liana Ermakova; Pierre De Loor

Resource for Error Analysis in Text Simplification: New Taxonomy and Test Collection

Benjamin Vendeville, Liana Ermakova, Pierre De Loor

Published: 28 Apr 2026, Last Modified: 29 Apr 2026TALN 2026 ationtravauxpubliésEveryoneRevisionsBibTeXCC BY 4.0

Titre: Ressource pour l'analyse des erreurs en simplification de textes : nouvelle taxonomie et collection de test

Type Of Submission: Recent Work Published in Major International Conference / Travaux publiés récemment dans les conférences majeures internationales

Keywords: Text Simplification; Error Classification; Hallucinations; NLP

Mots-cles: Simplification de texte; Classification d'Erreurs; Hallucinations; TALN

Abstract: The general public often encounters complex texts that they do not have the time or expertise to fully understand. Automatic Text Simplification (ATS) helps make information more accessible, but its evaluation methods have not kept up with recent advances in text generation. Studies have shown that current metrics do not correlate with the presence of errors, highlighting the need for a better evaluation framework. This paper addresses this gap by proposing a taxonomy of errors in simplification, a parallel dataset of automatically simplified scientific texts manually annotated according to this taxonomy, and an analysis of existing models for detecting and classifying these errors. These contributions provide researchers with the tools needed to better evaluate errors in ATS and improve the quality of automatically simplified texts.

Resume: Le grand public est souvent confronté à des textes complexes qu'il n'a pas le temps ni l'expertise de comprendre pleinement. La simplification automatique de textes (SAT) contribue à rendre l'information plus accessible, mais ses méthodes d'évaluation n'ont pas suivi les avancées récentes en génération de texte. Des études ont montré que les métriques actuelles ne corrèlent pas avec la présence d'erreurs, soulignant le besoin d'un meilleur cadre d'évaluation. Cet article réduit ce manque en proposant une taxonomie des erreurs en simplification, un jeu de données parallèle de textes scientifiques simplifiés annotés manuellement selon cette taxonomie, et une analyse des modèles existants pour détecter et classifier ces erreurs. Ces contributions fournissent aux chercheurs les outils nécessaires pour mieux évaluer les erreurs en SAT et améliorer la qualité des textes simplifiés automatiquement.

Submission Number: 82

Loading