### change architecture
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 64 --mlp_hdim2 64 --mlp_hdim3 64 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 128 --mlp_hdim2 128 --mlp_hdim3 128 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 \
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 1024 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 256 --mlp_hdim2 256 --mlp_hdim3 256 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 256 --mlp_hdim2 64 --mlp_hdim3 256 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 256 --mlp_hdim2 128 --mlp_hdim3 256 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 1024 --mlp_hdim2 1024 --mlp_hdim3 1024 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_architecture Cifar10 


### change dropout
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.15 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.2 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.25 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.3 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.4 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.5 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \


### change lr
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_lambda Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-2 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 


### change epoch 
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 50 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 75 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 125 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 150 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 


### change lambda
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.2 --lambda_var 0.6 --lambda_ce 0.2 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.7 --lambda_ce 0.15 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name Change_lambda Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.25 --lambda_var 0.5 --lambda_ce 0.25 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.35 --lambda_var 0.3 --lambda_ce 0.35 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.45 --lambda_var 0.1 --lambda_ce 0.45 --run_name Change_lambda Cifar10 \

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.25 --lambda_var 0.25 --lambda_ce 0.5 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.4 --lambda_var 0.1 --lambda_ce 0.5 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0.25 --lambda_ce 0.25 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.35 --lambda_var 0.35 --lambda_ce 0.3 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0.2 --lambda_ce 0.3 Cifar10 


### run 5 seeds
# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 0 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name 5_seed Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name 5_seed Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 2 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name 5_seed Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name 5_seed Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 4 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name 5_seed Cifar10 

# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 0 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name 5_seed Cifar10 \


# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 0 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.15 --lambda_ce 0.7 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.15 --lambda_ce 0.7 Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 2 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.15 --lambda_ce 0.7 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.15 --lambda_ce 0.7 Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 4 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.15 --lambda_ce 0.7 Cifar10 

# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 0 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 2 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 4 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 Cifar10 


### match VIT
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.75 --lambda_var 0 --lambda_ce 0.25 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.9 --lambda_var 0 --lambda_ce 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.6 --lambda_var 0 --lambda_ce 0.4 Cifar10 


### clip 
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 1.0 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.01 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.001 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.0001 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 

# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.5 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.05 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.005 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.0005 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 Cifar10 



### Match 1 layer kep-svgp
# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 0 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name 1_layer Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name 1_layer Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 2 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name 1_layer Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name 1_layer Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 4 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name 1_layer Cifar10 

# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 0 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name 1_layer Cifar10 

#Match ViT using DiT
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 1 --lambda_ce 1 --run_name DiT --adversarial_noise 0.01 --adversarial_samples 4 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 1 --lambda_ce 1 --run_name DiT --adversarial_noise 0.05 --adversarial_samples 4 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 1 --lambda_ce 1 --run_name DiT --adversarial_noise 0.1 --adversarial_samples 4 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 1 --lambda_ce 1 --run_name DiT --adversarial_noise 0.5 --adversarial_samples 4 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 1 --lambda_ce 1 --run_name DiT --adversarial_noise 1.0 --adversarial_samples 4 Cifar10 

# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 1 --lambda_ce 1 --run_name DiT --adversarial_noise 1.0 --adversarial_samples 4 Cifar10 

#Change lr
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-2 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 

# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-2 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-4 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 5e-5 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1 --lambda_var 0 --lambda_ce 1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 

#change lambda
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.9 --lambda_var 0 --lambda_ce 0.1 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.7 --lambda_var 0 --lambda_ce 0.3 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.6 --lambda_var 0 --lambda_ce 0.4 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.5 --lambda_var 0 --lambda_ce 0.5 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 

# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0 --lambda_ce 0.6 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.3 --lambda_var 0 --lambda_ce 0.7 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.2 --lambda_var 0 --lambda_ce 0.8 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.1 --lambda_var 0 --lambda_ce 0.9 --run_name DiT --adversarial_noise 0.0 --adversarial_samples 0 Cifar10 


### Match kep-svgp 7 layers
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.45 --lambda_var 0.1 --lambda_ce 0.45 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.35 --lambda_var 0.3 --lambda_ce 0.35 --run_name DiT Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.3 --lambda_var 0.4 --lambda_ce 0.3 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.25 --lambda_var 0.5 --lambda_ce 0.25 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.2 --lambda_var 0.6 --lambda_ce 0.2 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.1 --lambda_var 0.8 --lambda_ce 0.1 --run_name DiT Cifar10 

### 5 seed Kep-svgp 7 layers 0.4 - 0.2 - 0.4
# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 0 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 2 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 4 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 

# ### 5 seed VIT 0.8 - 0.0 - 0.2
# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 0 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 2 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out  --pretrained_seed 4 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 --run_name DiT-5-seed Cifar10 

### Match kep-svgp 1, 2 layers 0.4 - 0.2 - 0.4
python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 0 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 2 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 4 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 
