#!/bin/bash
#SBATCH --job-name=tale_prun_depth    # 作业在调度系统中的作业名为myFirstJob
#SBATCH --partition=gpuB            # 作业提交的指定队列
#SBATCH --nodes=1                   # 申请节点数为1,如果作业不能跨节点(MPI)运行, 申请的节点数应不超过1
#SBATCH --ntasks-per-node=1         # 每节点任务数，GPU任务不需要修改
#SBATCH --cpus-per-task=3           # V100一张卡默认配置3个CPU核心，gpuB一张卡默认配置12个CPU核心,MIG资源一张卡默认配置6个CPU核心(根据卡数自行调整)
#SBATCH --gres=gpu:1                # 申请GPU卡数
#SBATCH -o %J.out                   # 脚本执行的输出将被保存在当 %J.out文件下，%j表示作业号
#SBATCH -e %J.err                   # 脚本执行的错误日志将被保存在当 %J.err文件下，%j表示作业号

module load anaconda3               # 加载相关依赖
source activate come             # 如果已经在命令行中激活对应环境，提交脚本时需注释此行，推荐保留此行在base环境下提交任务

PYTHON=~/.conda/envs/come/bin/python

# 你自己的模型路径（HF 格式）
MODEL_PATH=/seu_nvme/ogai/models/Meta-Llama-3.1-8B-Instruct
DATA_DIR=/seu_nvme/ogai/datasets/

TAU1=2
TAU2=2
P_WIDTH_COARSE=0.12
P_WIDTH_FINE=0.06

OUT_DIR="./tale_outputs/prun/Llama3.1-8B-Instruct/tau1_${TAU1}-tau2_${TAU2}-PWidthCoarse_${P_WIDTH_COARSE}-PWidthFine_${P_WIDTH_FINE}-TargetSparsity_0.5-Iters_1000-NewPrun1-WidthOnly"
# coarse→fine 阶段切换的阈值因子: tau1
# 决定停止 depth 或 width 的冗余度因子：tau2

$PYTHON /TO/MY/PATH/code/Understanding_Performance_Collapse/TALE/tale_iterative_global.py \
  --model_name_or_path "${MODEL_PATH}" \
  --output_dir "${OUT_DIR}" \
  --calib_dataset "mmlu" \
  --data_dir "${DATA_DIR}" \
  --num_calib_sample 16 \
  --num_loss_sample 4 \
  --seqlen 512 \
  --metrics "WIFV" \
  --target_sparsity 0.3 \
  --max_iters 1000 \
  --K_layer_candidates 12 \
  --p_width_coarse ${P_WIDTH_COARSE} \
  --p_width_fine ${P_WIDTH_FINE} \
  --tau1 ${TAU1} \
  --tau2 ${TAU2} \
  --M_window 5 \
  --recompute_interval 5 \
  --fp16 \
  --seed 42 \
  --prune_mode width
