Multi-fidelity reinforcement learning with control variates

Sami Khairy; Prasanna Balaprakash

Multi-fidelity reinforcement learning with control variates

Sami Khairy, Prasanna Balaprakash

Published: 01 Jan 2024, Last Modified: 14 May 2025Neurocomputing 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Abstract: Highlights•Proposed an unbiased reduced-variance multifidelity estimator for the state–action value function in multifidelity reinforcement learning (RL).•Theoretically analyzed the impacts of variance reduction in estimating the state–action value function on both policy evaluation and policy improvement.•Designed a multifidelity Monte Carlo RL algorithm, MFMCRL, to improve policy learning for RL agents operating in high-fidelity environments.•Demonstrated empirical performance gains in synthetic multifidelity RL environments and a neural architecture search (NAS) use case.

Loading