A unified multimodal classification framework based on deep metric learning

Liwen Peng, Songlei Jian, Minne Li, Zhigang Kan, Linbo Qiao, Dongsheng Li

Published: 2025, Last Modified: 19 May 2025Neural Networks 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•A unified multimodal classification framework that can handle various multimodal classification tasks.•Flexibly process data from multiple modalities, including images, texts, audio, and videos.•Metric-based triplet learning to extract intra-modal relationships in every modality.•Contrastive pairwise learning to capture inter-modal relationships across multiple modalities.