Reference Code:
https://github.com/xtma/dsac



# (1) gradient over states: C51 ant(500), halfcheetah(10000), humanoidstand(15000), swimmer(160, significantly better), bipedalwalkerhardcore(50, significantly better)
humanoid(5000, but lower than C51), walker2d(500, but lower than C51), reacher (500)
python dsac_regularization.py --config ant --alg C51 --vmax 500 --gpu 1 --entropy 0 --gradient 1 --seed 0 
python dsac_regularization.py --config humanoid --alg C51 --vmax 5000 --gpu 1 --entropy 0 --gradient 1 --seed 0 
python dsac_regularization.py --config walker2d --alg C51 --vmax 500 --gpu 2 --entropy 0 --gradient 1 --seed 0 
python dsac_regularization.py --config halfcheetah --alg C51 --vmax 10000 --gpu 3 --entropy 0 --gradient 1 --seed 0 
python dsac_regularization.py --config reacher --alg C51 --vmax 500 --gpu 3 --entropy 0 --gradient 1 --seed 0 
python dsac_regularization.py --config humanoidstand --alg C51 --vmax 15000 --gpu 1 --entropy 0 --gradient 1 --seed 0 
python dsac_regularization.py --config swimmer --alg C51 --vmax 160 --gpu 1 --entropy 0 --gradient 1 --seed 0 
python dsac_regularization.py --config bipedalwalkerhardcore --alg C51 --vmax 50 --gpu 0 --entropy 0 --gradient 1 --seed 0 



# (2) gradient over parameteris: acceleration effect for AC and DAC: gradient 2 
# ac: without entropy (entropy=0)
python sac.py --config ant --gpu 0  --entropy 0 --gradient 2 --seed 0 
python sac.py --config humanoid --gpu 1 --entropy 0 --gradient 2 --seed 0 
python sac.py --config walker2d --gpu 3 --entropy 0 --gradient 2 --seed 0 
python sac.py --config halfcheetah --gpu 3  --entropy 0 --gradient 2 --seed 0 
python sac.py --config humanoidstand --gpu 0 --entropy 0 --gradient 2 --seed 0 
python sac.py --config reacher --gpu 3 --entropy 0 --gradient 2 --seed 0 
python sac.py --config swimmer --gpu 3 --entropy 0 --gradient 2 --seed 0 
python sac.py --config bipedalwalkerhardcore --gpu 1 --entropy 0 --gradient 2 --seed 0
# DAC(C51)
python dsac_regularization.py --config ant --alg C51 --vmax 500 --gpu 1 --entropy 0 --gradient 2 --seed 0 
python dsac_regularization.py --config humanoid --alg C51 --vmax 5000 --gpu 2 --entropy 0 --gradient 2 --seed 0 
python dsac_regularization.py --config walker2d --alg C51 --vmax 500 --gpu 0 --entropy 0 --gradient 2 --seed 0 
python dsac_regularization.py --config halfcheetah --alg C51 --vmax 10000 --gpu 1 --entropy 0 --gradient 2 --seed 0 
python dsac_regularization.py --config reacher --alg C51 --vmax 500 --gpu 2 --entropy 0 --gradient 2 --seed 0 
python dsac_regularization.py --config humanoidstand --alg C51 --vmax 15000 --gpu 2 --entropy 0 --gradient 2 --seed 0 
python dsac_regularization.py --config swimmer --alg C51 --vmax 160 --gpu 1 --entropy 0 --gradient 2 --seed 0 
python dsac_regularization.py --config bipedalwalkerhardcore --alg C51 --vmax 50 --gpu 0 --entropy 0 --gradient 2 --seed 0 
# DAC(IQN)
python dsac.py --config ant --gpu 0  --entropy 0 --gradient 2 --seed 0 
python dsac.py --config humanoid --gpu 1 --entropy 0 --gradient 2 --seed 0 
python dsac.py --config walker2d --gpu 2 --entropy 0 --gradient 2 --seed 0 
python dsac.py --config halfcheetah --gpu 3  --entropy 0 --gradient 2 --seed 0 
python dsac.py --config humanoidstand --gpu 1 --entropy 0 --gradient 2 --seed 0 
python dsac.py --config reacher --gpu 0 --entropy 0 --gradient 2 --seed 0 
python dsac.py --config swimmer --gpu 2 --entropy 0 --gradient 2 --seed 0 
python dsac.py --config bipedalwalkerhardcore --gpu 0 --entropy 0 --gradient 2 --seed 0 