Préservation du contenu médical par des systèmes de synthèse vocale ouverts

Ricardo Rodriguez; Stéphane Huet; Benoit Favre; Mickael Rouvier

Préservation du contenu médical par des systèmes de synthèse vocale ouverts

Ricardo Rodriguez, Stéphane Huet, Benoit Favre, Mickael Rouvier

Published: 05 Jun 2026, Last Modified: 05 Jun 2026TAL@SanteEveryoneRevisionsBibTeXCC BY 4.0

Keywords: tts, synthèse de la parole, médical, santé, kokoro, fish-speech, style-tts2, zipvoice, blurb

TL;DR: Évaluation de la capacité de TTS ouverts pour synthétiser des textes médicaux tout en conservant le contenu via des méthodes automatiques: WER, WER médical (M-WER) et performance de BioLinkBERT dans les tâches BLURB évalué sur les transcriptions

Abstract: Le secteur des soins cliniques connaît un flux croissant de données à traiter, ce qui justifie l'introduction de nouvelles technologies mieux adaptées au domaine de la santé. Les Grands Modèles de Langue avec interfaces vocales apportent des bénéfices potentiels, mais nécessitent de grandes quantités de données audio pour l'entraînement, extrêmement difficiles à collecter vue leur haute sensibilité, introduisant des enjeux éthiques et réglementaires pour leur exploitation. Dans cet article nous étudions la capacité de quatre modèles TTS ouverts à synthètiser des textes médicaux, et nous évaluons la préservation du contenu via des méthodes automatiques: taux d'erreur de mots (WER), taux d'erreur sur des concepts médicaux (M-WER) et performance dans des tâches de TAL du modèle BioLinkBERT-large évalué sur la transcription des données synthétiques. Les textes utilisés proviennent des corpus BLURB, et l’ensemble des données générées sera rendu publiquement disponible sous licence ouverte.

Email Sharing: We authorize the sharing of all author emails with Program Chairs.

Data Release: We authorize the release of our submission and author names to the public in the event of acceptance.

Submission Number: 3

Loading