['--learn', 'test', '--env', 'Hopper-v3', '--traj', 'medium']
policy performance: 1567.9680227540455
