Titre: DivMerge: une méthode de fusion de modèles pour le multi-tâches fondée sur une divergence
Type Of Submission: Recent Work Published in Major International Conference / Travaux publiés récemment dans les conférences majeures internationales
Keywords: model merging, language model, divergence
Mots-cles: fusion de modèles,modèles de langue,divergence
Abstract: Merging fine-tuned models is a promising alternative to costly multi-task training, but task interference remains a challenge, especially as the number of tasks grows. We present DivMerge, a reference-free method that merges models trained on different tasks by minimizing Jensen-Shannon divergence between their outputs and those of the merged model, automatically balancing task importance. While the method exhibits strong theoretical properties, experiments on classification and generative tasks with autoregressive models show that DivMerge consistently outperforms prior work, and remains robust when scaling to more tasks.
Resume: La fusion de modèles affinés est une alternative prometteuse à un entraînement multi-tâches classique par mélange de données. Cependant, les possibles interférences entre tâches constituent un frein, surtout à mesure que le nombre de tâches à fusionner augmente. Nous présentons DivMerge, une méthode qui fusionne des modèles affinés sur différentes tâches en minimisant la divergence de Jensen-Shannon entre leurs sorties et celles du modèle fusionné, ceci sans données annotées et en équilibrant automatiquement l'importance respective de chaque tâche. Outre de solides propriétés théoriques démontrées par notre méthode, nos expériences sur des tâches de classification et de génération avec des modèles auto-régressifs montrent que DivMerge surpasse systématiquement les méthodes de la littérature et est robuste à l'augmentation du nombre de tâches.
Submission Number: 35
Loading