['--learn', 'test', '--env', 'Hopper-v3', '--traj', 'expert']
policy performance: 3174.421280812896
