Off-policy learning based on weighted importance sampling with linear computational complexity | OpenReview

Off-policy learning based on weighted importance sampling with linear computational complexity

Ashique Rupam Mahmood, Richard S. Sutton

2015 (modified: 27 Sept 2022)UAI 2015Readers: Everyone

0 Replies

Loading