Multimodal fusion and vision-language models: A survey for robot vision

Xiaofeng Han, Shunpeng Chen, Zenghuang Fu, Zhe Feng, Lue Fan, Dong An, Changwei Wang, Li Guo, Weiliang Meng, Xiaopeng Zhang, Rongtao Xu, Shibiao Xu

Published: 2026, Last Modified: 27 Jan 2026Inf. Fusion 2026EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•Comprehensive survey of multimodal fusion and VLMs for robotic vision tasks.•Extend beyond segmentation to SLAM, manipulation, and embodied navigation.•Highlight multimodal advantages in robustness, alignment, and reasoning ability.•Analyze key robotics datasets on modality mix, task scope, and practical limits.•Propose future directions on training efficiency and cross-modal alignment.

External IDs:dblp:journals/inffus/HanCFFFAWGMZXX26