Query-Policy Misalignment in Preference-Based Reinforcement Learning | OpenReview

Query-Policy Misalignment in Preference-Based Reinforcement Learning

Open Webpage

Xiao Hu, Jianxiong Li, Xianyuan Zhan, Qing-Shan Jia, Ya-Qin Zhang

Published: 2024, Last Modified: 25 Jan 2026ICLR 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading