Multi-modal visual tracking based on textual generation

Jiahao Wang, Fang Liu, Licheng Jiao, Hao Wang, Shuo Li, Lingling Li, Puhua Chen, Xu Liu

Published: 2024, Last Modified: 25 Mar 2026Inf. Fusion 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•Visual-Language Interaction Prompt Manager is proposed.•Multi-modal Image Description Co-Generation Module is introduced.•Multi-modal Visual Tracking Based on Textual Generation method is designed.