



torchrun  --nnodes=$WORLD_SIZE --nproc_per_node=8 --master_addr=$MASTER_ADDR --master_port=$MASTER_PORT --node_rank=$RANK continued_pretrain.sh.py \
--input_model_filename "path" \
--train_data_local_path "path" \
--output_dir "output_500m_40gpu_ft" \
--do_train True \
--do_eval False \
--model_max_length 2048 \
--fp16 False \
--bf16 True \
--log_on_each_node False \
--ddp_find_unused_parameters False \
--logging_dir "logging_path" \
--per_device_train_batch_size 13 \
--per_device_eval_batch_size 32 \
--gradient_accumulation_steps 1 \
--save_steps 10000 \
--eval_steps 5000000 \
--logging_steps 10 \
--evaluation_strategy "no" \
--save_strategy "steps" \
--report_to "tensorboard" \
--save_total_limit 100 \
--learning_rate 2e-3 \
--weight_decay 0.1 \
--adam_beta1 0.9 \
--adam_beta2 0.95 \
--adam_epsilon 1e-8 \
--lr_scheduler_type "cosine" \
--gradient_checkpointing False \
--save_safetensors False \
--max_steps 500000 \
--warmup_step 1000 
