Post-hoc Reward Calibration: A Case Study on Length Bias | OpenReview

Post-hoc Reward Calibration: A Case Study on Length Bias

Open Webpage

Zeyu Huang, Zihan Qiu, Zili Wang, Edoardo M. Ponti, Ivan Titov

Published: 2025, Last Modified: 30 Jul 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading