Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes | OpenReview

Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes

Open Webpage

Alexandros Delitzas, Maria Parelli, Nikolas Hars, Georgios Vlassis, Sotirios-Konstantinos Anagnostidis, Gregor Bachmann, Thomas Hofmann

Published: 2023, Last Modified: 17 Nov 2025BMVC 2023EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Abstract

External IDs:dblp:conf/bmvc/DelitzasPHVABH23

Loading