Practical Guidelines for Model Merging in LLMs Pre-Training

Giuseppe Curci; Stefano Simonazzi; Andrea molinari; Andrea Zugarini

Practical Guidelines for Model Merging in LLMs Pre-Training

Giuseppe Curci, Stefano Simonazzi, Andrea molinari, Andrea Zugarini

Published: 18 Apr 2026, Last Modified: 24 Apr 2026ACL 2026 Industry Track PosterEveryoneRevisionsBibTeXCC BY 4.0

Keywords: Model Merging, Pre-training

TL;DR: Practical Guidelines for Model Merging in LLMs Pre-Training

Abstract: Model merging is widely used to combine fine-tuned models trained with different data distributions, tasks, or hyperparameters, yet its role during LLM pre-training remains underexplored. We systematically study checkpoint merging across training phases, focusing on the transition from stable to decaying learning rates. Across multiple scales, we find that simple averaging methods consistently improve performance during stable learning rate regimes, but gains sharply diminish during decay. We link this effect to reduced checkpoint diversity and show that merging effectiveness correlates with parameter-space variation. Strategies such as synthetic variability, task-vector merging, and cross-run merging yield only modest improvements. Our results provide practical insights on when merging is most effective in large-scale pre-training.

Submission Type: Discovery

Copyright Form: pdf

Submission Number: 375

Loading