CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction | OpenReview

CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction

Open Webpage

Size Wu, Wenwei Zhang, Lumin Xu, Sheng Jin, Xiangtai Li, Wentao Liu, Chen Change Loy

Published: 2024, Last Modified: 13 Feb 2025ICLR 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading