COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training. | OpenReview

COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training.

Sanghwan Kim, Rui Xiao, Mariana-Iuliana Georgescu, Stephan Alaniz, Zeynep Akata

26 Jan 2026CVPR 2025EveryoneCC BY-SA 4.0

Loading