Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning. | OpenReview

Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning.

Hyungkyu Kang, Min-hwan Oh

26 Nov 2025ICLR 2025EveryoneCC BY-SA 4.0

Loading