Online Learning in Kernelized Markov Decision Processes

Sayak Ray Chowdhury, Aditya Gopalan

2019 (modified: 26 Sept 2024)AISTATS 2019Readers: Everyone

Abstract: We consider online learning for minimizing regret in unknown, episodic Markov decision processes (MDPs) with continuous states and actions. We develop variants of the UCRL and posterior sampling al...

0 Replies