Mitigating OOD overoptimism via in-sample value function in offline reinforcement learning | OpenReview

Mitigating OOD overoptimism via in-sample value function in offline reinforcement learning

Open Webpage

Wenhui Liu, Kangyang Luo, Zhijian Wu, Shanfeng Hao, Dingjiang Huang

Published: 01 Aug 2026, Last Modified: 07 May 2026Neural NetworksEveryoneRevisionsCC BY-SA 4.0

External IDs:doi:10.1016/j.neunet.2026.108763

Loading