LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token | OpenReview

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Open Webpage

Shaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

Published: 2025, Last Modified: 21 May 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading