# Argmax 2

# CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 512 --block_length 32 --diffusion_steps 256 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax2

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 256 --block_length 32 --diffusion_steps 128 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax2

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax2

# Random 2

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 512 --block_length 32 --diffusion_steps 256 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/bottomk_topk

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 256 --block_length 32 --diffusion_steps 128 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/bottomk_topk

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/bottomk_topk

# Random 3

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 512 --block_length 32 --diffusion_steps 256 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 256 --block_length 32 --diffusion_steps 128 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less

# CUDA_VISIBLE_DEVICES=7,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path GSAI-ML/LLaDA-8B-Instruct

# CUDA_VISIBLE_DEVICES=7,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset countdown --batch_size 16 --gen_length 256 --block_length 32 --diffusion_steps 128 --output_dir "eval_results" --model_path GSAI-ML/LLaDA-8B-Instruct


# sudoku

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax2

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 256 --block_length 32 --diffusion_steps 128 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax2

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 512 --block_length 32 --diffusion_steps 256 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax2

# Vanilla

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/bottomk_topk

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 256 --block_length 32 --diffusion_steps 128 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/bottomk_topk

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 512 --block_length 32 --diffusion_steps 256 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/bottomk_topk

# Argmax 3

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 256 --block_length 32 --diffusion_steps 128 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less

CUDA_VISIBLE_DEVICES=8,9 torchrun --nproc_per_node 2 --master_port 22320 eval.py --dataset sudoku --batch_size 16 --gen_length 512 --block_length 32 --diffusion_steps 256 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less
