## hellaswag
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 0 --do_sample False --log_dir "./logs/qwen34_hellaswag_zs" --data_type "val" 
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 0 --do_sample False --log_dir "./logs/qwen38_hellaswag_zs" --data_type "val" 

python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 0 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_0" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 1 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_1" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 2 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_2" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 3 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_3" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 4 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_4" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 5 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_5" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 6 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_6" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 7 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_7" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 8 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_8" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-4B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 9 --do_sample True --log_dir "./logs/qwen34_hellaswag_seed_9" --data_type "train" --suffix False

python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 0 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_0" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 1 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_1" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 2 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_2" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 3 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_3" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 4 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_4" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 5 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_5" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 6 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_6" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 7 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_7" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 8 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_8" --data_type "train" --suffix False
python -m experiments.make_lm_outputs --model_name "Qwen/Qwen3-8B" --data_name 'hellaswag' --c_type 'base' --batch_size 32 --seed 9 --do_sample True --log_dir "./logs/qwen38_hellaswag_seed_9" --data_type "train" --suffix False