sparsities=(0.7 0.8 0.9 0.95)

ws_beta=0
update_interval=100
pruning_method="ri"
remove_method="weight_magnitude_soft"
sparsity_distribution="uniform"
lr=1e-3
zeta=0.1
iterative_warmup_steps=10
delta=(0 0.1 0.2 0.3 0.4 0.5 1)
for sparsity in ${sparsites[@]}
# # CHTs + az
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python3 -m torch.distributed.run --standalone --nproc_per_node 8 torchrun_main.py --run_name "llama60m" --model_config configs/llama_60m.json --dataset_name openwebtext --lr $lr --batch_size 64 --total_batch_size 512 --num_training_steps 10000 --warmup_steps 1000 --weight_decay 0 --dtype bfloat16 --eval_every 500 --optimizer adam --iterative_warmup_steps $iterative_warmup_steps --update_interval $update_interval --sparsity $sparsity --only_save_last --dst_scheduler --remove_method $remove_method --regrow_method CH2_L3n_soft --zeta $zeta --adaptive_zeta --WS --ws_beta $ws_beta --no_log --log_to_file --save_dir checkpoints/ --only_save_last
# s-shape
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python3 -m torch.distributed.run --standalone --nproc_per_node 8 torchrun_main.py --run_name "llama60m" --model_config configs/llama_60m.json --dataset_name openwebtext --lr $lr --batch_size 64 --total_batch_size 512 --num_training_steps 10000 --warmup_steps 1000 --weight_decay 0 --dtype bfloat16 --eval_every 500 --optimizer adam --iterative_warmup_steps $iterative_warmup_steps --update_interval $update_interval --sparsity $sparsity --only_save_last --dst_scheduler --remove_method $remove_method --regrow_method CH2_L3n_soft --granet --granet_init_sparsity 0.5 --sparsity_distribution $sparsity_distribution --pruning_method $pruning_method --pruning_scheduler s_shape --zeta $zeta --adaptive_zeta --WS --ws_beta $ws_beta --pruning_T_end 15000 --no_log --log_to_file --save_dir checkpoints/ --only_save_last
# # granet
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python3 -m torch.distributed.run --standalone --nproc_per_node 8 torchrun_main.py --run_name "llama60m" --model_config configs/llama_60m.json --dataset_name openwebtext --lr $lr --batch_size 64 --total_batch_size 512 --num_training_steps 10000 --warmup_steps 1000 --weight_decay 0 --dtype bfloat16 --eval_every 500 --optimizer adam --iterative_warmup_steps $iterative_warmup_steps --update_interval $update_interval --sparsity $sparsity --only_save_last --dst_scheduler --remove_method $remove_method --regrow_method CH2_L3n_soft --granet --granet_init_sparsity 0.5 --sparsity_distribution $sparsity_distribution --pruning_method $pruning_method --pruning_scheduler granet --zeta $zeta --adaptive_zeta --WS --ws_beta $ws_beta --pruning_T_end 30000 --no_log --log_to_file --save_dir checkpoints/ --only_save_last
