export WANDB_BASE_URL="https://api.wandb.ai"
export WANDB_MODE=online

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nproc_per_node=8 --master_port 19112 \
    fastvideo/train_grpo_flux_hpsv3.py \
    --seed 42 \
    --pretrained_model_name_or_path \
    --vae_model_path \
    --data_json_path \
    --train_batch_size 2 \
    --num_latent_t 1 \
    --sp_size 1 \
    --train_sp_batch_size 2 \
    --dataloader_num_workers 4 \
    --gradient_accumulation_steps 12 \
    --max_train_steps 151 \
    --learning_rate 1e-5 \
    --mixed_precision bf16 \
    --checkpointing_steps 40 \
    --allow_tf32 \
    --cfg 0.0 \
    --output_dir \
    --h 720 \
    --w 720 \
    --sampling_steps 17 \
    --eta 0.7 \
    --lr_warmup_steps 0 \
    --sampler_seed 1223627 \
    --max_grad_norm 0.01 \
    --weight_decay 0.0001 \
    --use_hpsv3 \
    --num_generations 12 \
    --shift 3 \
    --use_group \
    --timestep_fraction 0.5 \
    --gradient_checkpointing \
    --init_same_noise \
    --clip_range 5e-5 \
    --adv_clip_max 5.0 \
    --name \
    --right_clip_range 5e-5 \
    --grpo_step_mode flow \
    --use_chunk \
    --new_fix_chunk \
    --new_chunk_list '[2, 3, 4, 7]' \
    --sample_weight \
    --sample_weight_method normalized \
    # --cal_l1 \
    # --load_from_before \
    # --load_path \
    # --fixed_chunk \
    # --chunk_idx '[2]' \
    # --use_global_std \
    # --chunk_size 8 \
    # --use_new_chunk \
    # --use_global_std \
    # --use_kmeans \
    # --std_threshold 0.025 \
    # --std_filter \
    # --total_std \
    # --use_sto_step \
    # --use_compare \
    # --debug \
    # --use_base \
    # --use_reweight \
    # --kl_coeff 0 \
    # --use_half_half_adv \
    # --fixed_step \
    # --step_idx '[0,1,2,3]' \
    # --only_reward \