#!/bin/bash

# 使用方法提示
usage() {
    echo "用法: $0 <所需空闲GPU数量> <训练命令>"
    echo "示例: $0 4 \"llamafactory-cli train /path/to/config.yaml\""
    exit 1
}

# 检查参数数量
if [ "$#" -lt 2 ]; then
    usage
fi

# 解析参数
REQUIRED_FREE_GPUS="$1"
shift
TRAIN_CMD="$*"

# 配置参数
CHECK_INTERVAL=10        # 每次检查间隔（秒）
WAIT_TIME=60             # 空闲持续时长要求（秒）
GPU_THRESHOLD_MB=1000    # GPU 显存小于该值时认为是空闲的

# GPU 空闲检测函数
get_free_gpus() {
    nvidia-smi --query-gpu=memory.used --format=csv,noheader,nounits | \
    awk -v threshold="$GPU_THRESHOLD_MB" '
    {
        if ($1 < threshold) {
            printf("%d ", NR-1);  # GPU编号从0开始
        }
    }'
}

echo "开始监控 GPU 是否空闲（每 ${CHECK_INTERVAL}s 检查一次，至少空闲 ${REQUIRED_FREE_GPUS} 张 GPU）..."
SECONDS_FREE=0

while true; do
    FREE_GPUS=$(get_free_gpus)
    NUM_FREE=$(echo "$FREE_GPUS" | wc -w)

    if [ "$NUM_FREE" -ge "$REQUIRED_FREE_GPUS" ]; then
        SECONDS_FREE=$((SECONDS_FREE + CHECK_INTERVAL))
        echo "[`date`] 当前空闲GPU数量: $NUM_FREE，已空闲 ${SECONDS_FREE}/${WAIT_TIME} 秒"
    else
        echo "[`date`] 空闲GPU数量不足（$NUM_FREE），重置计时器"
        SECONDS_FREE=0
    fi

    if [ "$SECONDS_FREE" -ge "$WAIT_TIME" ]; then
        SELECTED_GPUS=$(echo "$FREE_GPUS" | awk -v n="$REQUIRED_FREE_GPUS" '{for (i=1; i<=n; i++) printf("%s%s", $i, (i<n?",":""))}')
        echo "[`date`] 满足条件，使用 GPU: $SELECTED_GPUS 运行命令"
        CUDA_VISIBLE_DEVICES="$SELECTED_GPUS" $TRAIN_CMD
        break
    fi

    sleep $CHECK_INTERVAL
done
