Perceive, Reason, and Align: Context-guided cross-modal correlation learning for image-text retrieval

Zheng Liu, Xinlei Pei, Shanshan Gao, Changhao Li, Jingyao Wang, Junhao Xu

Published: 2024, Last Modified: 11 Apr 2025Appl. Soft Comput. 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•Learns context-guided cross-modal correlation for image–text retrieval.•Generates visual and textual representations by perceiving contextual information.•Learns intra-modal correlation by reasoning relations within each modality.•Learns inter-modal correlation by aligning patches across different modalities.