# Token Ablations - Argmax3, Vanilla
CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node 2 --master_port 22321 eval.py --dataset gsm8k --batch_size 8 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/vanilla

CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node 2 --master_port 22321 eval.py --dataset gsm8k --batch_size 8 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax3

CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node 2 --master_port 22321 eval.py --dataset math --batch_size 8 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/argmax3

CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node 2 --master_port 22321 eval.py --dataset math --batch_size 8 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/vanilla

# Token Ablations - Mixed
CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node 2 --master_port 22321 eval.py --dataset math --batch_size 8 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less

CUDA_VISIBLE_DEVICES=1,2 torchrun --nproc_per_node 2 --master_port 22321 eval.py --dataset gsm8k --batch_size 8 --gen_length 128 --block_length 32 --diffusion_steps 64 --output_dir "eval_results" --model_path /mnt/data/shared/shparashar/lift/SFT/sft_output/mix_less