UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces | OpenReview

UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces

Open Webpage

Baining Zhao, Jianjie Fang, Zichao Dai, Ziyou Wang, Jirong Zha, Weichen Zhang, Chen Gao, Yue Wang, Jinqiang Cui, Xinlei Chen, Yong Li

Published: 2025, Last Modified: 21 Jan 2026ACL (1) 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:dblp:conf/acl/ZhaoFDWZZGWCCL25

Loading