Quantization-aware training: a tradeoff between training and fine-tuning for domain-specific language models

Xavier Pillet; Cédric Gernigon; Anastasia Volkova; Richard Dufour; Adeline Granet

Quantization-aware training: a tradeoff between training and fine-tuning for domain-specific language models

Xavier Pillet, Cédric Gernigon, Anastasia Volkova, Richard Dufour, Adeline Granet

Published: 28 Apr 2026, Last Modified: 29 Apr 2026TALN 2026 ationtravauxpubliésEveryoneRevisionsBibTeXCC BY 4.0

Titre: Réentraînement conscient de la quantification : un arbitrage entre pré-entraînement et affinage des modèles de langue spécialisés

Type Of Submission: Recent Work Published in Major International Conference / Travaux publiés récemment dans les conférences majeures internationales

Keywords: Quantization ; QAT ; Biomedical NLP ; BERT-based model

Mots-cles: Quantification, QAT, TAL Biomédical, Modèles de type BERT

Abstract: Quantization-aware training: a tradeoff between training and fine-tuning for domain-specific language models}{{Here the title in English.} Quantization is a widely adopted technique to reduce memory footprint and computational cost in neural networks. While quantizing pre-trained models is effective, retraining is often required for extreme quantization formats. Fine-tuning, on the other hand, enables the adaptation of general-purpose models to specific domains, but quantization can significantly degrade their performance. In this work, we investigate the training cost of fine-tuned and quantized language models. By formalizing the computational trade-off between domain adaptation and fine-tuning, we demonstrate that domain-specialized checkpoints exhibit greater robustness to quantization noise. Our findings establish a viable blueprint for deploying high-performance biomedical NLP models in resource-constrained, edge environments.

Resume: La quantification est une technique largement adoptée pour réduire l'empreinte mémoire et le coût computationnel des réseaux de neurones. Si la quantification de modèles pré-entraînés s'avère efficace, un réentraînement est souvent nécessaire pour les formats de quantification extrême. L'affinage (\textit{fine-tuning}), quant à lui, permet d'adapter des modèles généralistes à des domaines spécifiques, bien que la quantification puisse dégrader considérablement leurs performances. Ce travail étudie le coût d'entraînement des modèles de langue ajustés et quantifiés. La formalisation du compromis calculatoire entre l'adaptation au domaine et l'affinage, permet de démontrer que les points de contrôle spécialisés (checkpoints) présentent une plus grande robustesse au bruit de quantification. Ces résultats établissent un schéma directeur viable pour le déploiement de modèles de TAL biomédicaux performants dans des environnements embarqués aux ressources limitées.

Submission Number: 11

Loading