Une famille de modèles cliniques multilingues de type ColBERT diagnosticables grâce à un espace latent sémantique

François Remy

Une famille de modèles cliniques multilingues de type ColBERT diagnosticables grâce à un espace latent sémantique

François Remy

Published: 05 Jun 2026, Last Modified: 05 Jun 2026TAL@SanteEveryoneRevisionsBibTeXCC BY 4.0

Keywords: diagnosable, colbert, clinical, biomedical, multilingual, latent space

TL;DR: Des représentations tokenisées alignées sur un espace latent sémantique de référence rendent un modèle plus facile à diagnostiquer

Abstract: Dans cet article, nous introduisons le concept de modèle ColBERT diagnosticable, un modèle de langage dont la compréhension est analysable directement à l'échelle du token. En effet, bien que les modèles ColBERT classiques permettent l'inspection de scores d'interaction token--token, cela ne suffit pas pour diagnostiquer les erreurs en contexte clinique : pour cela, il faut aussi un espace latent de référence, sémantiquement structuré, afin de rendre visibles les confusions de concept, de composition locale et de qualification contextuelle. Armé de cette capacité d'introspection dans la compréhension cognitive d'un modèle, il est possible d'entraîner des modèles plus solides en itérant sur les données de manière réactive. Cette perspective est appuyée par deux résultats récents: ClinicalEncoder26AM a obtenu le meilleur rappel multilingue en extraction d'entités cliniques à MultiClinNER avec une tête BIO légère, tandis que ClinicalAligner26AM s'est classé premier sur le transfert d'entités multilingues MultiClinCorpus avec un F1 supérieur à 0,95 dans presque tous les réglages.

Email Sharing: We authorize the sharing of all author emails with Program Chairs.

Data Release: We authorize the release of our submission and author names to the public in the event of acceptance.

Submission Number: 7

Loading