EIFFEL: a novel benchmark to measure bias of English heavy training on French idiomatic expressions

Charlotte Noel; Nicholas Asher; Olivier Gouvert; Farah Benamara; Julie Hunter

EIFFEL: a novel benchmark to measure bias of English heavy training on French idiomatic expressions

Charlotte Noel, Nicholas Asher, Olivier Gouvert, Farah Benamara, Julie Hunter

Published: 28 Apr 2026, Last Modified: 29 Apr 2026TALN 2026 ationtravauxpubliésEveryoneRevisionsBibTeXCC BY 4.0

Titre: EIFFEL: Un corpus d’expressions idiomatiques françaises pour évaluer les biais anglocentriques des LLMs

Type Of Submission: Recent Work Published in Major International Conference / Travaux publiés récemment dans les conférences majeures internationales

Keywords: multilingual evaluation, multilingual benchmarks, corpus creation, benchmarking, language resources, multilingual corpora, NLP datasets, cross-lingual transfert

Mots-cles: évaluation multilingue, benchmarks multilingues, construction de corpus, ressources de langage, corpus multilingue, jeu de données TAL, crosslingual transfert

Abstract: Mainstream multilingual LLMs are generally trained on a much higher proportion of English than multilingual data, raising questions about their ability to capture linguistic features particular to non-English languages or to capture information important to non-anglophone cultures. We add to a growing effort to increase multilingual sensitivity in LLMs by developing a benchmark, EIFFEL, testing mastery of French idiomatic expressions in context. We fully explain the methodology, which exploits input from native French speakers, to make it reproducible for other languages. We compare mainstream multilingual LLMs with French-focused LLMs both on standard LLM benchmarks and EIFFEL; EIFFEL brings out the benefits of higher proportions of French data and shows limitations of standard benchmarks for measuring multilingual competence. We also train from scratch a series of 1B SLMs with different proportions of French and English pretraining data that confirm EIFFEL's lessons.

Resume: Les LLMs multilingues populaires sont généralement entraînés sur de plus grande proportions de données anglaises que de données multilingues, ce qui soulève des questions quant à leur capacité à saisir les particularités linguistiques propres à ces autres langues ainsi qu'à saisir leurs informations culturelles spécifiques. Nous contribuons ainsi à un effort visant à accroître la sensibilité multilingue des LLMs en développant un benchmark, EIFFEL, qui teste la maîtrise des expressions idiomatiques françaises en contexte. Nous détaillons la méthodologie employée, incluant la participation de locuteurs natifs français, afin de la rendre reproductible dans d'autres langues. Nous comparons les LLMs multilingues populaires aux LLMs axés sur le français à la fois sur des benchmarks standards et sur EIFFEL. EIFFEL met en évidence les avantages d'une proportion plus élevée de données en français et montre les limites des benchmarks standards pour mesurer le multilinguisme.

Submission Number: 71

Loading