# hybrid_eval_config_tsp100_se_pomo.yaml

# 数据和通用模型参数
data:
  # 用于测试的原始数据，RL和DM都将使用这个文件中的`locs`
  valid_path: "./tsp_data/tsp_solutions_valid1000_n100_s7991_solver_concorde.npz" 
  test_path: "./tsp_data/tsp_solutions_test1280_n100_s4321_solver_concorde.npz"  # [新增] 对应的最优解路径
  #test_path: "./tsp_data_n100/tsp_maps_n100_valid15000_v2_seed42.npz"  # [新增] 对应的最优解路径


# ... 其他所有配置保持不变 ...  prefix_k: 1 # RL生成prefix的长度

model: # DM模型的结构参数
  num_nodes: 100
  node_coord_dim: 2
  pos_embed_num_feats: 64
  node_embed_dim: 128
  prefix_enc_hidden_dim: 256
  prefix_cond_dim: 256
  gnn_n_layers: 12
  gnn_hidden_dim: 256
  gnn_aggregation: "sum"
  gnn_norm: "layer"
  gnn_learn_norm: true
  gnn_gated: true
  time_embed_dim: 256

# RL模型相关配置
rl_model:
  name: POMO  # <-- 关键改动：指定模型为POMO
  problem: 'tsp'
  ckpt_path: "./rl4co_main/RL_ckpt/pomo_last.ckpt" # 你的RL模型检查点路径   logs/train/runs/tsp100/am-tsp100/2025-05-22_09-06-34/checkpoints/epoch_099.ckpt

# Diffusion模型相关配置   
dm_model:
  #ckpt_path: "./ckpt_tsp_difusco_style_new/tsp_conditional_diffusion_epoch_70.pth" # 你的DM模型检查点路径
  ckpt_path: "./ckpt_tsp_difusco_style_tsp100/stage5_k1_20_last_epoch_20.pth"
diffusion: # DM的扩散过程参数
  num_timesteps: 1000
  schedule_type: 'cosine'

# 评估过程配置
eval:
  batch_size: 1 # 必须同时被RL和DM模型的VRAM接受
  num_inference_steps: 20
  inference_schedule_type: 'cosine'
  apply_two_opt: False
  num_samples_to_visualize: 5 # 新增：控制为多少个样本生成对比图
  two_opt_max_iterations: 50

solver:
  # --- 决定是否启用新的理论触发器 ---
  use_theory_trigger: true 
  
  # --- 探测阶段参数 ---
  # 要探测的RL Top-M候选动作数量
  probe_rl_top_m:  15 #10 best but time 174; 6 time 77
  # DM探测时使用的固定噪声水平 (总步数T=1000)
  dm_probe_timestep: 500
  # DM偏好概率分布的温度系数 (调节softmax的尖锐度)
  dm_prior_temp: 0.1 #0.1
# --- [新增下面的参数] ---
  # 用于自适应选择候选集的累积概率阈值 No used
  adaptive_m_p_thresh: 0.1
  # --- 触发DM的阈值 ---
  entropy_threshold: 1.6
  kl_div_threshold: 8  # 可以设置一个动态范围靠概率选择
  
  # --- 原有参数 ---
  dm_inference_steps: 100
  dynamic_n_cumulative_threshold: 0.8
  apply_two_opt: False