RMB: Comprehensively benchmarking reward models in LLM alignment | OpenReview

RMB: Comprehensively benchmarking reward models in LLM alignment

Open Webpage

Enyu Zhou, Guodong Zheng, Binghai Wang, Zhiheng Xi, Shihan Dou, Rong Bao, Wei Shen, Limao Xiong, Jessica Fan, Yurong Mou, Rui Zheng, Tao Gui, Qi Zhang, Xuanjing Huang

Published: 2025, Last Modified: 16 May 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading