Double Reinforcement Learning for Efficient and Robust Off-Policy Evaluation

Nathan Kallus, Masatoshi Uehara

2020 (modified: 04 Nov 2022)ICML 2020Readers: Everyone

Abstract: Off-policy evaluation (OPE) in reinforcement learning allows one to evaluate novel decision policies without needing to conduct exploration, which is often costly or otherwise infeasible. We consid...

0 Replies