DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback | OpenReview

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

Open Webpage

Guojun Xiong, Ujwal Dinesha, Debajoy Mukherjee, Jian Li, Srinivas Shakkottai

Published: 2025, Last Modified: 25 Sept 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:dblp:conf/iclr/XiongDMLS25

Loading