#!/bin/bash
# 启动 SGLang 服务器，使用 GPU 1 和 2 进行 Tensor Parallel

# 设置 Hugging Face 镜像
export HF_ENDPOINT=https://hf-mirror.com

# 指定使用 GPU 1 和 2
export CUDA_VISIBLE_DEVICES=1,2

# NCCL 配置（用于多 GPU 通信）
export NCCL_SOCKET_IFNAME=lo
export NCCL_DEBUG=WARN
export NCCL_IB_DISABLE=1

# 清理旧进程
echo "清理旧的 SGLang 进程..."
# pkill -9 -f sglang 2>/dev/null || true
sleep 2

# 启动 SGLang 服务器
echo "启动 SGLang 服务器..."
echo "模型: Qwen/Qwen2.5-3B-Instruct"
echo "Tensor Parallel Size: 2"
echo "GPU: 1, 2"
echo "端口: 30000"
echo ""

sglang serve --model-path Qwen/Qwen2.5-3B-Instruct \
  --tp-size 2 \
  --host 0.0.0.0 \
  --port 30000 \
  --max-running-requests 256 \
  --trust-remote-code \
  2>&1 | tee sglang.log

