Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory

Ruiqi Zhang, Xuezhou Zhang, Chengzhuo Ni, Mengdi Wang

2022 (modified: 25 Apr 2023)ICML 2022Readers: Everyone

Abstract: Off-Policy Evaluation (OPE) serves as one of the cornerstones in Reinforcement Learning (RL). Fitted Q Evaluation (FQE) with various function approximators, especially deep neural networks, has gai...

0 Replies