CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 train.py \
    --llm_model 7B \
    --llama_model_path ../data/weights/ \
    --data_path ../data/alpaca_data.json \
    --max_seq_len 512 \
    --batch_size 1 \
    --accum_iter 32 \
    --epochs 4 \
    --warmup_epochs 2 \
    --blr 9e-3 \
    --weight_decay 0.02 \
    --output_dir ./LaVIN-7B-lite/warmup \
    --adapter_type attn \
    --adapter_dim 8 \
    --adapter_scale 1\
    --n_prompt 6 \
    --prompt_format QCM-ALE \
    --temperature 10.\
    --visual_adapter_type router \
    --bits 4bit \
    --cpu_load \
    --lwc \
    --nsamples 512 \
    --calib_dataset wikitext2 \
    --calib_epochs 0 \
    --quant_resume ./LaVIN-7B-lite/quant_params/llama-7b-w4a16g128_modify.pth \
    --start_layer 5 \
    
CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 pretrain.py \
   --llm_model 13B \
   --llama_model_path ../data/weights/ \
   --data_path ../data/alpaca_data.json \
   --max_seq_len 1024 \
   --batch_size 1 \
   --accum_iter 8 \
   --epochs 2 \
   --warmup_epochs 0 \
   --lr 1e-4 \
   --weight_decay 0.0 \
   --clip_grad 1.0 \
   --output_dir ./pretrain/7b \
   --temperature 10.\
   --cpu_load \
   --do_train \
   --bits 4bit \
   --lwc \
   --nsamples 512 \
   --calib_dataset wikitext2 \
   --calib_epochs 0 \
   --quant_resume ./LaVIN-13B-lite/quant_params/llama-7b-w4a16g128_modify.pth  \
   --data_name mix \
   --start_layer 5 \
   --mix_ratio 1 \
   --need_img \
   --adapter_path ./LaVIN-13b-lite/warmup/checkpoint-4.pth \

CUDA_VISIBLE_DEVICES=0 torchrun --nproc_per_node 1 train.py \
    --llm_model 7B \
    --llama_model_path ../data/weights/ \
    --data_path ../data/alpaca_data.json \
    --max_seq_len 512 \
    --batch_size 1 \
    --accum_iter 32 \
    --epochs 20 \
    --warmup_epochs 2 \
    --blr 9e-3 \
    --weight_decay 0.02 \
    --output_dir ./LaVIN-7B-lite/ \
    --adapter_type attn\
    --adapter_dim 8\
    --adapter_scale 1\
    --n_prompt 6 \
    --prompt_format QCM-ALE \
    --temperature 10.\
    --visual_adapter_type router \
    --bits 4bit \
    --cpu_load \
    --lwc \
    --nsamples 512 \
    --calib_dataset wikitext2 \
    --calib_epochs 0 \
    --quant_resume ./LaVIN-7B-lite/quant_params/llama-7b-w4a16g128_modify.pth \
    --scaling_resume ./pretrain/7b/checkpoint-1.pth \
    --start_layer 5 \
    



