#!/bin/bash

# 定义要查询和处理的端口列表
PORTS=(8000 10000 10001 10002 10003)

# 遍历端口列表
for port in "${PORTS[@]}"; do
  echo "正在检查端口: $port"

  # 查找监听该端口的进程PID
  # 使用 lsof 命令。-t 参数表示只输出PID，-i TCP:$port 表示查找TCP协议的指定端口
  # netstat -tulnp | grep ":$port" | awk '{print $7}' | sed 's/\/.*//' 这种方式也可以，但lsof更直接
  pid=$(lsof -t -i TCP:"$port")

  # 检查是否找到了PID
  if [ -n "$pid" ]; then
    echo "端口 $port 上找到进程 PID: $pid"
    echo "正在结束进程 PID: $pid ..."
    # 使用 kill -9 强制结束进程
    # 请谨慎使用 kill -9，因为它会立即终止进程，可能导致数据丢失或资源未正确释放
    # 在某些情况下，首先尝试 kill $pid (发送 SIGTERM 信号，允许进程优雅退出) 可能更安全
    kill -9 "$pid"
    if [ $? -eq 0 ]; then
      echo "进程 PID: $pid 已成功结束。"
    else
      echo "结束进程 PID: $pid 失败。"
    fi
  else
    echo "端口 $port 上没有找到监听的进程。"
  fi
  echo "--------------------------------------"
done


# 指定要操作的GPU ID列表
DEFAULT_GPUS=(0 1 2 3 4 5 6 7)

# 如果命令行参数不为空，则使用命令行参数作为TARGET_GPUS
if [ "$#" -gt 0 ]; then
    TARGET_GPUS=("$@") # 将所有命令行参数视为GPU ID
    echo "接收到命令行传入的 GPU 列表: ${TARGET_GPUS[*]}"
else
    TARGET_GPUS=("${DEFAULT_GPUS[@]}")
    echo "未从命令行接收到GPU列表，将使用默认列表: ${TARGET_GPUS[*]}"
fi

declare -a ALL_PIDS_TO_KILL=() # 用于存储所有待处理的PID

# 1. 检查 nvidia-smi 命令是否存在
if ! command -v nvidia-smi &> /dev/null; then
    echo "错误: nvidia-smi 命令未找到。请确保NVIDIA驱动已安装并配置正确。" >&2
    exit 1
fi

echo "警告: 此脚本将尝试强制终止 (kill -9) GPU ${TARGET_GPUS[*]} 上的所有计算进程。"

# 2. 查询指定GPU上的PID并收集
for gpu_id in "${TARGET_GPUS[@]}"; do
    echo "正在查询 GPU ${gpu_id} 上的进程 PID..."
    
    # 使用nvidia-smi查询指定GPU的计算进程PID
    # --id=${gpu_id} : 指定GPU ID
    # --query-compute-apps=pid : 只查询PID
    # --format=csv,noheader,nounits : CSV格式，无标题，无单位
    # 2>/dev/null : 错误输出重定向，避免干扰PID收集
    pids_on_this_gpu=$(nvidia-smi --id="${gpu_id}" --query-compute-apps=pid --format=csv,noheader,nounits 2>/dev/null)
    
    found_on_this_gpu=false
    if [ -n "$pids_on_this_gpu" ]; then
        # 将单GPU上查询到的PID（可能多个，每行一个）添加到总列表
        while IFS= read -r pid; do
            if [[ "$pid" =~ ^[0-9]+$ ]]; then # 确保PID是纯数字
                ALL_PIDS_TO_KILL+=("$pid")
                found_on_this_gpu=true
            fi
        done <<< "$pids_on_this_gpu" # 使用here-string将pids_on_this_gpu作为输入
    fi

    if $found_on_this_gpu; then
        echo "GPU ${gpu_id}: 发现PID。"
    else
        echo "GPU ${gpu_id}: 未发现计算进程。"
    fi
done

# 3. 处理并终止PID
if [ ${#ALL_PIDS_TO_KILL[@]} -eq 0 ]; then
    echo ""
    echo "在指定的 GPU ${TARGET_GPUS[*]} 上没有找到需要终止的计算进程。"
    exit 0
fi

# 获取唯一的PID列表
UNIQUE_PIDS=$(printf "%s\n" "${ALL_PIDS_TO_KILL[@]}" | sort -u)

echo ""
echo "将要终止以下唯一 PID (来自 GPU ${TARGET_GPUS[*]}):"
echo "$UNIQUE_PIDS"
echo ""

for pid_to_kill in $UNIQUE_PIDS; do
    # 再次验证（尽管已在添加时验证，但从字符串读取时多一层保险）
    if ! [[ "$pid_to_kill" =~ ^[0-9]+$ ]]; then
        echo "跳过无效的PID格式: '$pid_to_kill'"
        continue
    fi

    echo "正在终止 PID: $pid_to_kill ..."
    kill "$pid_to_kill"
    if [ $? -eq 0 ]; then
        echo "PID: $pid_to_kill 已成功终止。"
    else
        # kill -9 失败通常意味着进程已不存在或权限不足
        echo "终止 PID: $pid_to_kill 失败 (可能进程已不存在或权限不足)。"
    fi
done

echo ""
echo "脚本执行完毕。"
echo "建议运行 'nvidia-smi' 检查当前GPU状态。"