Lost in Interpretation: The Plausibility-Faithfulness Paradox in Cross-Lingual Explanations

Lost in Interpretation: The Plausibility-Faithfulness Paradox in Cross-Lingual Explanations

ACL ARR 2026 January Submission10849 Authors

06 Jan 2026 (modified: 20 Mar 2026)ACL ARR 2026 January SubmissionEveryoneRevisionsBibTeXCC BY 4.0

Keywords: Multilingual explainability, Evidence grounding, Explanation faithfulness

Abstract: LLMs are often audited with English explanations for non-English inputs, yet these pivot rationales may not reflect how decisions are made. We uncover a Plausibility–Faithfulness Paradox: English pivots can sound more human while becoming less evidence-grounded. Across 3 diverse tasks, 5 different languages, and 2 multilingual LLM families, english explanations often turn into fluent post-hoc stories, masking brittle cues and degrading faithfulness by up to 5.7×. In safety-sensitive classification, pivots can also wash out social signals and reduce plausibility. We therefore recommend auditing explanations in the original language and reporting faithfulness alongside plausibility, using english rationales only as a secondary communication layer.

Paper Type: Short

Research Area: Special Theme (conference specific)

Research Area Keywords: Natural Language Processing, Multilingual NLP

Contribution Types: Model analysis & interpretability, NLP engineering experiment

Languages Studied: English, Chinese, Hindi, Bengali

Submission Number: 10849

Loading