torchrun --standalone --nproc_per_node 1 --nnodes 1 ../torchrun_main.py \
    --model_config ../configs/llama_130m.json \
    --lr 0.01 \
    --rank 256 \
    --update_proj_gap 200 \
    --batch_size 32 \
    --total_batch_size 512 \
    --num_training_steps 20000 \
    --scheduler_effective_training_steps 20000 \
    --warmup_steps 2000 \
    --weight_decay 0 \
    --dtype bfloat16 \
    --eval_every 500 \
    --optimizer adam8bit \
    --use_mylora True\
    --lora_alpha 0.5 \
    --proj_type std\
    --num_eval_tokens 10000000\
    --joint_optim_iters 4 \
    --bnb_4bit_quant_type nf4 \
    --quantize_w '4bit' \
    --quantize_projection_matrix '4bit' \
    --use_double_quant True \
    --single_gpu \
    --use_offloading True \
    --name ploraq8bit \