### change architecture
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 1024 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 64 --mlp_hdim2 64 --mlp_hdim3 64 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 128 --mlp_hdim2 128 --mlp_hdim3 128 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 256 --mlp_hdim2 256 --mlp_hdim3 256 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 256 --mlp_hdim2 64 --mlp_hdim3 256 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 256 --mlp_hdim2 128 --mlp_hdim3 256 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 1024 --mlp_hdim2 1024 --mlp_hdim3 1024 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 


### change dropout
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.1 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.15 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.2 --mlp_gamma 1.0 Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.25 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.3 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.4 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.5 --mlp_gamma 1.0 Cifar10 \


### change lr
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-2 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 


### change epoch 
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 50 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 75 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 125 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 150 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --mlp_gamma 1.0 Cifar10 


### change lambda
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.25 --lambda_var 0.25 --lambda_ce 0.5 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.4 --lambda_var 0.1 --lambda_ce 0.5 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0.25 --lambda_ce 0.25 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.35 --lambda_var 0.35 --lambda_ce 0.3 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0.2 --lambda_ce 0.3 Cifar10 \
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.2 --lambda_var 0.05 --lambda_ce 0.75 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.10 --lambda_ce 0.75 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.15 --lambda_ce 0.7 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0.5 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0.5 --lambda_ce 0.5 Cifar10 



### match vanilla VIT
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 0 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 0 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 2 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 4 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 

### change architecture 
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 128 --mlp_hdim2 128 --mlp_hdim3 128 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 256 --mlp_hdim2 256 --mlp_hdim3 256 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 1024 --mlp_hdim2 1024 --mlp_hdim3 1024 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 1024 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 


### change lr 
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-2 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-2 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-1 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 

# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 


### change weight
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0 --lambda_ce 0.5 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.25 --lambda_var 0 --lambda_ce 0.75 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.2 --lambda_var 0 --lambda_ce 0.8 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.1 --lambda_var 0 --lambda_ce 0.9 Cifar10 



### Match VIT: in each layer of VIT, we transform output into N(mean, std) with mean is output of this layer and std is std of outputs of {adversarial_samples} adversarisal inputs (by adding noise into original input). 
python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 0.1 --adversarial_samples 4 Cifar10 \
&python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 0.5 --adversarial_samples 4 Cifar10 \
&python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 1.0 --adversarial_samples 4 Cifar10 \
&python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 2.0 --adversarial_samples 4 Cifar10 
 