MIRAGE : une bibliothèque de métriques pour évaluer les hallucinations dans les textes générés

Benjamin Vendeville; Liana Ermakova; Pierre De Loor; Jaap Kamps

MIRAGE : une bibliothèque de métriques pour évaluer les hallucinations dans les textes générés

Benjamin Vendeville, Liana Ermakova, Pierre De Loor, Jaap Kamps

Published: 28 Apr 2026, Last Modified: 29 Apr 2026TALN 2026 ationtravauxpubliésEveryoneRevisionsBibTeXCC BY 4.0

Titre: MIRAGE : A Metrics lIbrary for Rating hAllucinations in Generated tExt

Type Of Submission: Recent Work Published in Major International Conference / Travaux publiés récemment dans les conférences majeures internationales

Keywords: Hallucination, Natural Language Generation, Automatic Metrics

Mots-cles: Hallucination ; TALN ; Métriques automatiques

Abstract: Hallucinations in natural language generation remain a critical challenge, particularly in high-stakes domains such as healthcare or science communication. While several automatic metrics have been proposed to detect and quantify them, such as FactCC, QAGS, FEQA, and FactAcc, these are often unavailable, difficult to reproduce, or incompatible with modern workflows. We introduce \textbf{MIRAGE}, an open-source Python library that re-implements key hallucination evaluation metrics in a unified framework built on Hugging Face, offering modularity, reproducibility, and standardized inputs and outputs. Adhering to FAIR principles, MIRAGE accelerates experimentation and supports the development of future metrics. We validate it by re-evaluating existing metrics on benchmark datasets, demonstrating comparable performance while significantly improving usability and transparency.

Resume: Les erreurs dans la génération de langage naturel, appelées hallucinations, restent un défi majeur dans des domaines tels que la santé ou la communication scientifique. Si plusieurs métriques ont été proposées pour les détecter, comme FactCC, QAGS, FEQA et FactAcc, elles sont souvent indisponibles, difficiles à reproduire ou incompatibles avec les workflows modernes. Nous présentons \textbf{MIRAGE}, une bibliothèque Python open-source qui réimplémente ces métriques au sein d'un cadre unifié construit sur Hugging Face, offrant modularité, reproductibilité et entrées/sorties standardisées. En adhérant aux principes FAIR, MIRAGE accélère l'expérimentation et soutient le développement de futures métriques. Nous le validons en réévaluant les métriques existantes sur des jeux de données de référence, démontrant des performances comparables avec une meilleure transparence.

Submission Number: 81

Loading