#!/bin/bash
# ======================================
# 自动检测空闲 GPU 并运行 gen_vllm.py 任务
# 判定标准：显存占用 < 1000MB 且持续空闲 ≥ 1 分钟
# 限制条件：
#   - 模型目录中必须存在 .safetensors 文件
#   - 检测到后等待 0 分钟再启动任务
#   - 最多同时占用两张显卡
#   - 启动后 10 分钟内不再复用该 GPU
# ======================================

# ====== 配置部分 ======
MEM_THRESHOLD=1000       # GPU 显存占用低于该值视为空闲（MB）
IDLE_TIME=60             # GPU 空闲持续时间（秒）
MAX_TASKS=2              # 最大同时任务数
GPU_COOLDOWN=600         # GPU 启动任务后的冷却时间（秒）= 10 分钟
MODEL_DIR="~/LLaMA-Factory-250514/saves_shuyan/qwen3-8B-base/prime-sft"
WAIT_AFTER_MODEL_READY=0 # 检测到 safetensors 后等待时间（秒）
PYTHON_BIN="~/verl_250713/.conda/bin/python"

# ====== 任务列表 ======
TASKS=(
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 396984 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/396984_end_example.json"
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 340272 --end 396984 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/340272_396984_example.json"
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 283560 --end 340272 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/283560_340272_example.json"
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 226848 --end 283560 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/226848_283560_example.json"
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 170136 --end 226848 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/170136_226848_example.json"
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 113424 --end 170136 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/113424_170136_example.json"
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 56712 --end 113424 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/56712_113424_example.json"
"$PYTHON_BIN ~/verl_250713/scripts/gen_vllm.py --begin 0 --end 56712 --data ~/datasets/prime-rl/train_shuffled_math.parquet --dataset_split train --output_finish_reason --num_outputs 5 --prompt_key prompt --output_key responses --model $MODEL_DIR --max_length 2560 --temperature 1 --output_json $MODEL_DIR/prime-rl-rollouts/0_56712_example.json"
)

# ====== 状态变量 ======
declare -A TASK_STATUS
for i in "${!TASKS[@]}"; do
  TASK_STATUS[$i]=0
done

# 用于记录 GPU 的冷却时间戳
declare -A GPU_COOLDOWN_MAP

# ====== 检查 GPU 是否空闲（显存判定） ======
check_idle_gpu() {
  local gpu=$1
  local mem_used
  mem_used=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits -i "$gpu" | tr -d ' ')
  mem_used=${mem_used:-999999}

  if (( mem_used < MEM_THRESHOLD )); then
    echo "[CHECK] GPU $gpu 当前显存占用 ${mem_used}MB，进入 ${IDLE_TIME}s 复检..."
    sleep $IDLE_TIME
    mem_used=$(nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits -i "$gpu" | tr -d ' ')
    mem_used=${mem_used:-999999}
    if (( mem_used < MEM_THRESHOLD )); then
      echo "$gpu"
      return 0
    fi
  fi
  return 1
}

# ====== 检查模型目录是否准备好 ======
wait_for_model_ready() {
  if [[ ! -d "$MODEL_DIR" ]]; then
    echo "[ERROR] 模型目录 $MODEL_DIR 不存在！"
    exit 1
  fi

  echo "[INFO] 检查模型目录是否有 .safetensors 文件..."
  while true; do
    if ls "$MODEL_DIR"/*.safetensors >/dev/null 2>&1; then
      echo "[INFO] 检测到模型文件，等待 $((WAIT_AFTER_MODEL_READY/60)) 分钟以确保加载稳定..."
      sleep $WAIT_AFTER_MODEL_READY
      echo "[INFO] 模型目录已准备就绪。"
      return 0
    fi
    echo "[WAIT] 未检测到 .safetensors 文件，30 秒后重试..."
    sleep 30
  done
}

# ====== 主循环 ======
echo "[START] GPU 监控与任务调度脚本启动..."
wait_for_model_ready  # 启动前先确保模型已准备好

while true; do
  running_tasks=$(pgrep -f "python .*gen_vllm.py" | wc -l)
  if (( running_tasks >= MAX_TASKS )); then
    echo "[INFO] 当前已有 $running_tasks 个任务在运行，等待..."
    sleep 60
    continue
  fi

  current_time=$(date +%s)
  gpu_count=$(nvidia-smi -L | wc -l)

  for gpu in $(seq 0 $((gpu_count - 1))); do
    # 检查 GPU 是否处于冷却中
    if [[ -n "${GPU_COOLDOWN_MAP[$gpu]}" ]]; then
      elapsed=$(( current_time - GPU_COOLDOWN_MAP[$gpu] ))
      if (( elapsed < GPU_COOLDOWN )); then
        remaining=$(( GPU_COOLDOWN - elapsed ))
        echo "[COOLDOWN] GPU $gpu 冷却中，剩余 ${remaining}s"
        continue
      else
        unset GPU_COOLDOWN_MAP[$gpu]
        echo "[COOLDOWN END] GPU $gpu 冷却完毕，可重新分配。"
      fi
    fi

    if idle_gpu=$(check_idle_gpu "$gpu"); then
      echo "[INFO] 检测到 GPU $gpu 空闲。"
      for i in "${!TASKS[@]}"; do
        if [[ ${TASK_STATUS[$i]} -eq 0 ]]; then
          log_file="task_${i}_gpu${gpu}_$(date +%Y%m%d_%H%M%S).log"
          echo "[RUN] 启动任务 $i 使用 GPU $gpu (日志: $log_file)"
          CUDA_VISIBLE_DEVICES=$gpu ${TASKS[$i]} > "$log_file" 2>&1 &
          TASK_STATUS[$i]=1
          GPU_COOLDOWN_MAP[$gpu]=$current_time  # 记录冷却开始时间
          echo "[INFO] GPU $gpu 进入冷却期 ${GPU_COOLDOWN}s"
          break
        fi
      done
    fi
  done

  # 检查是否所有任务均已启动
  all_done=true
  for v in "${TASK_STATUS[@]}"; do
    if [[ $v -eq 0 ]]; then
      all_done=false
      break
    fi
  done

  if $all_done; then
    echo "[INFO] 所有任务均已启动，脚本退出。"
    exit 0
  fi

  sleep 30
done
