models:
  small_model: "qwen3-4b" # 小模型
  large_model: "qwen3-4b"   # 大模型
  router_model: "qwen3-4b"  # 路由模型
  enable_threshold: False # 是否启用难度阈值（启动后会将简单的问题直接交给小模型执行，不再拆解任务）
  threshold: 5  # 难度阈值，大于等于此值时使用大模型
  use_local_router: False  # 是否使用本地部署的路由模型
  local_router_model: "saves/Qwen3-1.7B-Thinking/full/train_2025-09-25-23-33-09"  # 本地模型路径
  sequential_execution: True # 是否启用强制顺序执行（否则为并行执行）
  single_rely: False  # 是否启用单一依赖（否则为多依赖）
  random_router: True  # 是否启用随机路由（否则为基于难度评分的路由）
  enable_router: False # 是否启用路由机制

  executor: 
    temperature: 0.5  # 执行器温度设置
    top_p: 0.9        # 执行器Top-p设置
    max_tokens: 500   # 执行器最大生成令牌数
    enable_thinking: False  # 是否启用思考链
  planner: 
    temperature: 1  # 规划器温度设置
    top_p: 0.95      # 规划器Top-p设置
    max_tokens: 600  # 规划器最大生成令牌数
    enable_thinking: False  # 是否启用思考链
  router:
    enabled: True
    ckpt_path: "router_trained_vllm.pt"
    embed_model: "Qwen/Qwen3-Embedding-0.6B"
    vllm_url: "http://localhost:8001/v1"
    token_budget_max: 2048.0 # B_max
    latency_budget_max: 25.0  # L_max
    delta0: 0.0
    alpha_B: 0.5
    alpha_L: 0.5
    tau: 0.1

# delta0, alpha_B, alpha_L = 0.0, 0.5, 0.5
# B_max, L_max = 8192.0, 50.0       # high
# B_max, L_max = 2048.0, 25.0     # default
# B_max, L_max = 512.0, 10.0     # low

# API配置
api:
  small_key_path: "ApiKeys/qwen" # 小模型API Key路径
  large_key_path: "ApiKeys/qwen" # 大模型API Key路径
  router_key_path: "ApiKeys/qwen" # 路由模型API Key路径
  small_api_base_url: "https://dashscope.aliyuncs.com/compatible-mode/v1"  # 小模型API基础URL
  large_api_base_url: "https://api.bianxie.ai/v1"  # 大模型API基础URL
  router_api_base_url: "https://dashscope.aliyuncs.com/compatible-mode/v1"  # 路由模型API基础URL
  local_router_base_url: "http://127.0.0.1:8000/v1"  # 本地部署的路由模型API基础URL

# 请求超时设置
timeout: 1000  # 默认API请求超时时间(秒)

# 系统配置
system:
  prompt_path: "prompt/generate_prompt.txt"
  compare_prompt_path: "prompt/direct_solve_prompt.txt" # 直接求解的提示词路径
  workers: 4  # 并行工作线程数
  enable_judge: True  # 是否启用答案正确性判断
  gold_answer: "16"  # 标准答案，如果启用判断则必填
  
  # 重试配置
  retries:
    enabled: true          # 是否启用重试机制的总开关
    max_attempts: 3        # 每个任务失败后的最大重试次数
    delay_seconds: 5       # 每次重试之间的等待时间（秒）
# 查询配置
query: "Define all possible orientations and placements of the L-shaped tile within the 2x5 rectangle."

# 数据集配置
dataset:
  enabled: True  # 是否启用数据集模式（评估或构建）
  path: "dataset/TestData/gpqa.json" # 数据集文件路径（JSON格式）
  limit: 3 # 限制处理的数据条数，0表示不限制
  seed: 42  # 随机种子，用于结果复现
  output_dir: "model_compare_results/" # 结果输出目录

  build:
    enabled: False  # 设置为 true 以构建数据集，而不是评估
    use_models_for_execution: False  # 如果为 false，只生成计划而不执行子任务
    use_ground_truth_to_guide_planner: False  # 使用 'solution' 字段来指导 planner
    save_thinking: False  # 是否保存 planner 输出中的 <think> 块

# 新增：评估配置
evaluation:
  enabled: False  # 是否启用评估模式
  planner_enabled: False  # 是否启用 planner 评估
  executor_enabled: False  # 是否启用 executor 评估
  model: "deepseek-chat"  # 用于判断的模型
  key_path: "usage/deepseek2" # 评估模型的API密钥
  api_base_url: "https://api.deepseek.com" # 评估模型的API基础URL