VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings | OpenReview

VL-CLIP: Enhancing Multimodal Recommendations via Visual Grounding and LLM-Augmented CLIP Embeddings

Open Webpage

Ramin Giahi, Kehui Yao, Sriram Kollipara, Kai Zhao, Vahid Mirjalili, Jianpeng Xu, Topojoy Biswas, Evren Korpeoglu, Kannan Achan

Published: 22 Sept 2025, Last Modified: 04 Nov 2025CrossrefEveryoneRevisionsCC BY-SA 4.0

External IDs:doi:10.1145/3705328.3748064

Loading