# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0.5 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.4 --lambda_var 0.6 --lambda_ce 1.0 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.1 --lambda_var 0.1 --lambda_ce 0.8 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.1 --lambda_var 0.2 --lambda_ce 0.7 --run_name Change_lambda Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.15 --lambda_var 0.15 --lambda_ce 0.7 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.2 --lambda_var 0.2 --lambda_ce 0.6 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0.3 --lambda_ce 0.2 --run_name Change_lambda Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out_cat --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --mlp_hdim4 64 --pretrained_seed 3 --mlp_dropout 0.05 --lambda_mean 0.7 --lambda_var 0.1 --lambda_ce 0.2 --run_name Change_lambda Cifar10 \

### match VIT
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 0 --lambda_ce 1.0 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.9 --lambda_var 0 --lambda_ce 0.1 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.8 --lambda_var 0 --lambda_ce 0.2 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.7 --lambda_var 0 --lambda_ce 0.3 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.6 --lambda_var 0 --lambda_ce 0.4 --run_name change_lambda_average_loss Cifar10 \

# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.5 --lambda_var 0 --lambda_ce 0.5 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.4 --lambda_var 0 --lambda_ce 0.6 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.3 --lambda_var 0 --lambda_ce 0.7 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.2 --lambda_var 0 --lambda_ce 0.8 --run_name change_lambda_average_loss Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 0.1 --lambda_var 0 --lambda_ce 0.9 --run_name change_lambda_average_loss Cifar10 


### Match VIT: in each layer of VIT, we transform output into N(mean, std) with mean is output of this layer and std is std of outputs of {adversarial_samples} adversarisal inputs (by adding noise into original input). 
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 0.001 --adversarial_samples 4 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 0.005 --adversarial_samples 4 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 0.01 --adversarial_samples 4 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone mlp --pretrained_dir ./results/vit_out --clip 0.1 --mlp_hdim1 512 --mlp_hdim2 512 --mlp_hdim3 512 --pretrained_seed 1 --mlp_dropout 0.05 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name create_std_each_layer_by_adding_noise_to_input --adversarial_noise 0.05 --adversarial_samples 4 Cifar10 


### Match VIT: employ LSTM vs GRU
# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone lstm --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name lstm --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 64 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone lstm --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name lstm --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 128 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone lstm --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name lstm --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 256 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone lstm --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name lstm --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 384 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone lstm --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name lstm --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 512 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 

# python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone gru --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name gru --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 64 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone gru --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name gru --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 128 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone gru --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name gru --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 256 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone gru --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name gru --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 384 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type softmax --num_heads 12 --hdim 384 --batch-size 128 --gpu 0 --nb-epochs 200 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone gru --pretrained_dir ./results/vit_out --pretrained_seed 1 --lambda_mean 1.0 --lambda_var 1.0 --lambda_ce 1.0 --run_name gru --adversarial_noise 0.1 --adversarial_samples 4 --rnn_hidden 512 --rnn_num_layers 1 --rnn_dropout 0.1 Cifar10 


### Match kep-svgp 7 layers
# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.8 --lambda_var 0.1 --lambda_ce 0.1 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.7 --lambda_var 0.1 --lambda_ce 0.2 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.7 --lambda_var 0.15 --lambda_ce 0.15 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.6 --lambda_var 0.2 --lambda_ce 0.2 --run_name DiT Cifar10 

# python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.6 --lambda_var 0.1 --lambda_ce 0.3 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.5 --lambda_var 0.25 --lambda_ce 0.25 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.5 --lambda_var 0.2 --lambda_ce 0.3 --run_name DiT Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 7 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.5 --lambda_var 0.1 --lambda_ce 0.4 --run_name DiT Cifar10 

### Match kep-svgp 1, 2 layers 0.4 - 0.2 - 0.4
python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 0 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 2 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
&python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 1 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 4 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 

# python3 main.py --model diffusion --seed 0 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 0 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 1 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 1 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 2 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 2 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 3 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 3 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 \
# &python3 main.py --model diffusion --seed 4 --depth 7 --attn-type kep_svgp --concate --ksvd-layers 2 --num_heads 12 --hdim 384 --eta-ksvd 10 --batch-size 128 --gpu 0 --nb-epochs 100 --nb-run 1 --lr 1e-3 --weight-decay 5e-5 --save-dir ./results/diffusion --backbone transformer --pretrained_dir ./results/vit_out_cat --pretrained_seed 4 --trans_depth 1 --trans_num_heads 12 --trans_mlp_ratio 1 --trans_dropout 0.1 --lambda_mean 0.4 --lambda_var 0.2 --lambda_ce 0.4 --run_name DiT-5-seed Cifar10 
