Titre: MIRAGE : A Metrics lIbrary for Rating hAllucinations in Generated tExt
Type Of Submission: Recent Work Published in Major International Conference / Travaux publiés récemment dans les conférences majeures internationales
Keywords: Hallucination, Natural Language Generation, Automatic Metrics
Mots-cles: Hallucination ; TALN ; Métriques automatiques
Abstract: Hallucinations in natural language generation remain a critical challenge, particularly in high-stakes domains such as healthcare or science communication. While several automatic metrics have been proposed to detect and quantify them, such as FactCC, QAGS, FEQA, and FactAcc, these are often unavailable, difficult to reproduce, or incompatible with modern workflows. We introduce \textbf{MIRAGE}, an open-source Python library that re-implements key hallucination evaluation metrics in a unified framework built on Hugging Face, offering modularity, reproducibility, and standardized inputs and outputs. Adhering to FAIR principles, MIRAGE accelerates experimentation and supports the development of future metrics. We validate it by re-evaluating existing metrics on benchmark datasets, demonstrating comparable performance while significantly improving usability and transparency.
Resume: Les erreurs dans la génération de langage naturel, appelées hallucinations, restent un défi majeur dans des domaines tels que la santé ou la communication scientifique. Si plusieurs métriques ont été proposées pour les détecter, comme FactCC, QAGS, FEQA et FactAcc, elles sont souvent indisponibles, difficiles à reproduire ou incompatibles avec les workflows modernes. Nous présentons \textbf{MIRAGE}, une bibliothèque Python open-source qui réimplémente ces métriques au sein d'un cadre unifié construit sur Hugging Face, offrant modularité, reproductibilité et entrées/sorties standardisées. En adhérant aux principes FAIR, MIRAGE accélère l'expérimentation et soutient le développement de futures métriques. Nous le validons en réévaluant les métriques existantes sur des jeux de données de référence, démontrant des performances comparables avec une meilleure transparence.
Submission Number: 81
Loading