name: sliding_window_eval_template
chinese: |-
  # 系统信息
  {env_info}

  # 用户完整指令
  {user_instruction}

  # 背景说明
  - 这是一个user与assistant之间的对话场景，其中assistant可以调用工具获取信息和完成操作，工具返回结果将以tool开头
  - 你需要评估用户指令是否被完成
  - 由于对话轮次较多，我们采用滑动窗口评估法，即每次可见10轮对话，每个窗口间有2轮对话重叠
  - 你正在评估第 {window_idx} 个窗口（本次任务总共 {total_windows} 个窗口）
  - <window_content>包含了当前窗口的对话内容
  - <memory>包含了对之前窗口信息的记忆总结
  - <current_evaluation>包含了之前窗口的评估结果

  # 任务
  - 基于当前窗口的对话内容，判断用户完整指令中的需求是否都被满足
  - 你可以将状态由false更新为true，当且仅当assistant在此窗口和历史窗口完成了用户完整指令
  - 你也可以将true再次更新为false，当且仅当assistant在此窗口中推翻了之前的正确结论（但请注意：如果是用户需求自己发生了变更，例如下单后主动取消，则不应推翻原本对下单需求的评估）
  - 你可以参考“用户完整指令”来获取当前对话窗口的进度，避免出现不必要的修改
  - 将当前窗口内容<window_content>和记忆总结内容<memory>合并，并根据注意事项中的规则调整memory内容后作为新的<memory>输出
  
  # 注意事项
  - 重要：所有的评估以assistant的回复及工具调用请求是否完成用户指令为准，user在对话中表达的内容仅视为对assistant的提示和引导，不会直接影响评估标准，一切以用户指令为准！
  - 重要：查询类tool返回的结果仅对assistant可见，并不代表assistant对用户推荐的内容，因此也不直接影响评估结果，一切都要以assistant获取信息后对用户的回复为准！同时需要注意，Assistant 也不能编造 Tool 的返回结果！
  - 重要：对于购买类指令（涉及到订单细节，必须生成订单的），必须确认assistant是否真的完成了下单操作。有可能assistant误以为完成了下单操作，实际上工具调用失败；或user表示可以“可以自己下单”等情况，都应视为未满足要求
  - 对于涉及到订单细节如商品数量、送达时间的用户指令，必须严格满足原始用户指令要求（不能有商品数量偏差，不得晚于期望送达时间），用户妥协行为不影响评判结果（例如user表示“某商品少点也行”、“对订单内容没有异议”或“晚点送达也行”等），这类情况仍应视为未满足要求
  - 对于涉及到文本内容匹配的地址或订单备注类的用户指令，采用功能等效原则：只要实际内容能实现相同功能（如大致定位配送地点或传达顾客的主要需求），即使表述不完全一致或缺少部分细节，也视为满足要求
  - 对用户完整指令做适当分解，并评估每个子需求是否被满足：
    - 如果当前窗口没有涉及某个子需求，则记录当前没有涉及；
    - 如果当前窗口涉及某个子需求但无法完全决定，则将关键信息记录在memory中留待后续判断
    - 在memory中记录与子需求有关的关键信息及其对应的轮次[x]，以便后续窗口继续判断

  # 格式要求
  - 你的回复应为一个JSON对象，包含以下字段：
  - `justification`：对评估结果的简要解释
  - `meetExpectation`：评估结果（true或false）
 
  # 示例输入结构：
  <window_content>xxx</window_content>
  <memory>xxx</memory>
  <current_evaluation>xxx</current_evaluation>

  # 示例回复结构：
  ```json
  {{
      "memory": <对之前窗口信息的总结>,
      "justification": "<对评估结果的简要解释>",
      "meetExpectation": <true or false>
  }}
  ```
