CLUE: Contrastive language-guided learning for referring video object segmentation

Qiqi Gao, Wanjun Zhong, Jie Li, Tiejun Zhao

Published: 2024, Last Modified: 05 Jun 2025Pattern Recognit. Lett. 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•A language-guided contrastive learning and data augmentation method for R-VOS.•A sparse attention method to enhance multi-modal alignment.•An improvement over R-VOS baselines with better identification of textual semantics.