
torchrun --nproc_per_node=2 --master_port=20001 fastchat/train/code.orpo.py \
    --dataset_name=/.../.../.../..._final.parquet.jsonl \
    --model_name_or_path=/.../.../.../model/TinyLlama-1.1B-Chat-v1.0 \
    --per_device_train_batch_size 1 \
    --learning_rate 1e-3 \
    --gradient_accumulation_steps 8 \
    --logging_steps 10 \
    --eval_steps 500 \
    --output_dir="codeorpo_lora_epoch10" \
    --warmup_steps 150 \
    --report_to wandb \
    --logging_first_step \
    --no_remove_unused_columns \
    --num_train_epochs=10  \
    --max_prompt_length=512 \
    --use_peft \
    --lora_r=16 \
    --lora_alpha=16 \
    --max_length=2048 2>&1 | tee code.orpo.lora.v100.run.log



