MLLM as video narrator: Mitigating modality imbalance in video moment retrieval

Weitong Cai, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu

Published: 2025, Last Modified: 05 Mar 2026Pattern Recognit. 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•A text-enhanced alignment paradigm for addressing modality gap in moment retrieval.•Multi-modal large language model creates structured aligned narratives for retrieval.•Extensive experiments on two popular benchmarks show effective vision-text learning.