python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name BreakoutNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name FreewayNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name AsterixNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PitfallNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name VentureNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name GravitarNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.01 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.3 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy epsilon-greedy --algorithm q-learning --epsilon 0.5 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 5.960464477539063e-08 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 9.5367431640625e-07 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.52587890625e-05 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.000244140625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.00390625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 0.0625 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy softmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 5.960464477539063e-08 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 9.5367431640625e-07 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.52587890625e-05 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.000244140625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.00390625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 0.0625 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy resmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 1.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 5.960464477539063e-08
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 9.5367431640625e-07
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.52587890625e-05
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.000244140625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.00390625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 0.0625
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 1 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 2 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 3 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 4 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 5 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 6 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 7 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 8 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 9 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
python main.py --exploration_strategy mellowmax --algorithm q-learning --epsilon 0.1 --reps 1 --use_gpu --replay_buffer_size 1000000 --gpu_id 0 --agent_type non-linear --seed 10 --batch_size 64 --num_timesteps 5000000 --num_agent_train_steps_per_iter 1 --target_update_freq 1000 --learning_starts 50000 --nn_size 64 --n_layers 2 --gamma 0.99 --eta 12.0 --temp 1.0 --step_size 0.0001 --only_store_rewards --exploration_schedule 0 --env_name PrivateEyeNoFrameskip-v0 --save_path dqn_atari_results_epsilon_extra --log_interval 100000 --td_error_mg 1.0 --td_error_mg_lr 0.9 --td_error_mg_epsilon 0.0001 --verbose 0 --omega 1.0
