VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks | OpenReview

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

Open Webpage

Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen

Published: 2025, Last Modified: 16 May 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading