MedInjection-FR : Exploration du rôle du type données dans l'ajustement par instructions biomédicales en français
Keywords: Grands modèles de langue, ajustement par instructions, provenance des données
Abstract: L'ajustement par instructions est essentiel pour adapter les grands modèles de langue aux domaines spécialisés. En médecine, la rareté des ressources en français freine cette adaptation. Nous présentons MedInjection-FR, un jeu de données de 571\,436 paires instruction-réponse combinant trois sources: données natives, synthétiques et traduites. Une étude contrôlée sur Qwen-4B-Instruct montre que les données natives offrent les meilleures performances isolées, tandis que les configurations mixtes apportent des bénéfices complémentaires. L'évaluation par LLM-as-a-judge corrèle mieux avec l'expertise humaine que les métriques automatiques, tout en restant sensible à la verbosité.
Email Sharing: We authorize the sharing of all author emails with Program Chairs.
Data Release: We authorize the release of our submission and author names to the public in the event of acceptance.
Submission Number: 2
Loading