CUDA_VISIBLE_DEVICES=3,4 python -m torch.distributed.launch --master_port=8821 --nproc_per_node=2 \
examples/question-answering/run_qa.py \
--model_name_or_path pretrained_model_path \
--dataset_name squad_v2 \
--apply_lora --apply_adalora --lora_type bsvd \
--target_rank 4 --lora_r 6 \
--reg_orth_coef 0.1 \
--init_warmup 5000 --final_warmup 50000 --mask_interval 100 \
--beta1 0.85 --beta2 0.85 \
--apply_bayes \
--noise_rate 0.5 --noise_type Bernoulli --sample_num 4 \
--lora_module query,key,value,intermediate,layer.output,attention.output \
--lora_alpha 16 \
--do_train --do_eval --version_2_with_negative \
--max_seq_length 384 --doc_stride 128 \
--per_device_train_batch_size 8 \
--learning_rate 1e-3 \
--num_train_epochs 12 \
--warmup_steps 1000 --per_device_eval_batch_size 128 \
--evaluation_strategy steps --eval_steps 3000 \
--save_strategy steps --save_steps 100000 \
--logging_steps 300 \
--seed 9 \
--root_output_dir outputdir \
--overwrite_output_dir 