['--alg', 'sac', '--env', 'HalfCheetah-v2', '--learn', 'behavior', '--traj', 'medium', '--seed', '0', '--data', '3000', '--sub']
5059.802711338058
episode: 0 training return: tensor(-26.5333, device='cuda:0')
