Self-supervised 3D Vision Transformer Pre-training for Robust Brain Tumor Classification

Danilo Weber Nunes, David Rauber, Christoph Palm

Published: 2025, Last Modified: 23 Jan 2026Bildverarbeitung für die Medizin 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Brain tumors pose significant challenges in neurology, making precise classification crucial for prognosis and treatment planning. This work investigates the effectiveness of a self-supervised learning approach–masked autoencoding (MAE)–to pre-train a vision transformer (ViT) model for brain tumor classification. Our method uses non-domain specific data, leveraging the ADNI and OASIS-3 MRI datasets, which primarily focus on degenerative diseases, for pretraining. The model is subsequently fine-tuned and evaluated on the BraTS glioma and meningioma datasets, representing a novel use of these datasets for tumor classification. The pre-trained MAE ViT model achieves an average F1 score of 0.91 in a 5-fold cross-validation setting, outperforming the nnU-Net encoder trained from scratch, particularly under limited data conditions. These findings highlight the potential of self-supervised MAE in enhancing brain tumor classification accuracy, even with restricted labeled data.

External IDs:dblp:conf/bildmed/NunesRP25