Mining Intrinsic Rewards from LLM Hidden States for Efficient Best-of-N Sampling | OpenReview

Mining Intrinsic Rewards from LLM Hidden States for Efficient Best-of-N Sampling

Open Webpage

Jizhou Guo, Zhaomin Wu, Hanchen Yang, Philip S. Yu

Published: 2026, Last Modified: 27 Apr 2026KDD (1) 2026EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading