env: hallway

env_args:
  n_agents: 12
  n_groups: 5
  state_numbers: [4,4,4,4,4,4,4,4,4,4,4,4]
  group_ids: [0,0,1,1,2,2,3,3,3,4,4,4]
  reward_win: 1
  obs_last_action: False
  state_last_action: True

learner_log_interval: 10000
log_interval: 10000
runner_log_interval: 10000
t_max: 1005000
test_interval: 10000
test_nepisode: 300
test_greedy: True