Per-decision Multi-step Temporal Difference Learning with Control Variates | OpenReview

Per-decision Multi-step Temporal Difference Learning with Control Variates

Kristopher De Asis, Richard S. Sutton

Published: 2018, Last Modified: 09 Mar 2024UAI 2018Readers: Everyone

0 Replies

Loading