VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text | OpenReview

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text

Open Webpage

Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio

Published: 2025, Last Modified: 31 Jul 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading