['--learn', 'behavior', '--env', 'Walker2d-v3', '--traj', 'medium', '--seed', '5']
epoch: 0 training_loss 0.26300396844744683 test_loss: 0.1634657382965088
