Hyperparameter 0:
epoch_vt:1
gamma:0.0008
S0:3000
S1:None
S01:None
normalize_power:0
grad_max:0
clip_constant:0
beta:0
epoch_momentum:1
sampling:False
legend:GD


Hyperparameter 1:
epoch_vt:1
gamma:0.03
S0:3000
S1:None
S01:None
normalize_power:0.3333333333333333
grad_max:0
clip_constant:0
beta:0
epoch_momentum:1
sampling:False
legend:$\frac{1}{3}$GD


Hyperparameter 2:
epoch_vt:1
gamma:0.1
S0:3000
S1:None
S01:None
normalize_power:0.6666666666666666
grad_max:0
clip_constant:0
beta:0
epoch_momentum:1
sampling:False
legend:$\frac{2}{3}$GD


Hyperparameter 3:
epoch_vt:1
gamma:0.2
S0:3000
S1:None
S01:None
normalize_power:1
grad_max:0
clip_constant:0
beta:0
epoch_momentum:1
sampling:False
legend:1-GD


Hyperparameter 4:
epoch_vt:1
gamma:0.9
S0:3000
S1:None
S01:None
normalize_power:1
grad_max:100.0
clip_constant:0
beta:0
epoch_momentum:1
sampling:False
legend:Clipped GD


Hyperparameter 5:
epoch_vt:1
gamma:5e-05
S0:64
S1:None
S01:None
normalize_power:0
grad_max:0
clip_constant:0
beta:0
epoch_momentum:1
sampling:False
legend:SGD


Hyperparameter 6:
epoch_vt:1
gamma:0.03
S0:64
S1:None
S01:None
normalize_power:0.6666666666666666
grad_max:0
clip_constant:0
beta:0.2
epoch_momentum:510
sampling:False
legend:NSGDm with $\beta=\frac{2}{3}$


Hyperparameter 7:
epoch_vt:1
gamma:0.03
S0:64
S1:None
S01:None
normalize_power:0.6666666666666666
grad_max:0
clip_constant:0
beta:0
epoch_momentum:1
sampling:False
legend:NSGD with $\beta=\frac{2}{3}$


Hyperparameter 8:
epoch_vt:1
gamma:0.3
S0:64
S1:None
S01:None
normalize_power:0.6666666666666666
grad_max:45.0
clip_constant:15
beta:0
epoch_momentum:1
sampling:False
legend:Clip SGD with $\beta=\frac{2}{3}$


Hyperparameter 9:
epoch_vt:20
gamma:0.05
S0:3000
S1:64
S01:None
normalize_power:0.6666666666666666
grad_max:0
clip_constant:0
beta:0.4
epoch_momentum:1
sampling:False
legend:SPIDER with $\beta=\frac{2}{3}$


Hyperparameter 10:
epoch_vt:1
gamma:0.3
S0:64
S1:None
S01:4
normalize_power:0.6666666666666666
grad_max:45.0
clip_constant:15
beta:0
epoch_momentum:1
sampling:True
legend:I-NSGD with $\beta=\frac{2}{3}$


