A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models | OpenReview

A Rolling Stone Gathers No Moss: Adaptive Policy Optimization for Stable Self-Evaluation in Large Multimodal Models

Open Webpage

Wenkai Wang, Hongcan Guo, Zheqi Lv, Shengyu Zhang

Published: 2025, Last Modified: 15 Jan 2026CoRR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:dblp:journals/corr/abs-2508-09155

Loading