Robust Preference Optimization through Reward Model Distillation | OpenReview

Robust Preference Optimization through Reward Model Distillation

Open Webpage

Adam Fisch, Jacob Eisenstein, Vicky Zayats, Alekh Agarwal, Ahmad Beirami, Chirag Nagpal, Peter Shaw, Jonathan Berant

Published: 2025, Last Modified: 23 Jun 2025Trans. Mach. Learn. Res. 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading