Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning | OpenReview

Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning

Open Webpage

Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen

Published: 2025, Last Modified: 08 Jan 2026CoRR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:dblp:journals/corr/abs-2507-16814

Loading