name: full_trajectory_eval_template
chinese: |-
  # 系统信息
  {env_info}

  # 用户完整指令
  {user_instruction}

  # 背景说明
  - 这是一个user与assistant之间的对话场景，其中assistant可以调用工具获取信息和完成操作，工具返回结果将以tool开头
  - 你需要评估用户指令是否被完成，用户的完整指令已被拆分为若干个得分点rubric，你只需要判断每个得分点是否满足
  - <trajectory_content>包含了user与assistant之间的完整对话内容
  - <current_rubrics>包含了当前所有得分点的状态（true表示已满足，false表示未满足，所有得分点的初始状态均为false）

  # 任务
  - 基于对话内容，更新得分点rubric的状态
  - 你可以将状态由false更新为true，当且仅当assistant在对话中完成了该目标
  
  # 注意事项
  - 重要：所有的评估以assistant的回复及工具调用请求是否完成rubric中的目标为准，user在对话中表达的内容仅视为对assistant的提示和引导，不会直接影响评估标准，一切以rubric字段为准！
  - 重要：查询类tool返回的结果仅对assistant可见，并不代表assistant对用户推荐的内容，因此也不直接影响评估结果，一切都要以assistant获取信息后对用户的回复为准！同时需要注意，Assistant 也不能编造 Tool 的返回结果！
  - 重要：对于订单类rubric（涉及到订单细节，必须生成订单的），必须确认assistant是否真的完成了下单操作。有可能assistant误以为完成了下单操作，实际上工具调用失败；或user表示可以“可以自己下单”等情况，都应视为未满足要求
  - 对于涉及到订单细节如商品数量、送达时间的rubric，必须严格满足原始rubric要求（不能有商品数量偏差，不得晚于期望送达时间），用户妥协行为不影响评判结果（例如user表示“某商品少点也行”、“对订单内容没有异议”或“晚点送达也行”等），这类情况仍应视为未满足要求
  - 对于涉及到文本内容匹配的地址或订单备注类rubric，采用功能等效原则：只要实际内容能实现相同功能（如大致定位配送地点或传达顾客的主要需求），即使表述不完全一致或缺少部分细节，也视为满足要求
  - 在justification中以追加的形式记录与当前rubric有关的关键信息及其对应的轮次[x]，如果发生状态修改也需要记录原因，使用简练的语言

  # 格式要求
  - 你的回复应为一个JSON对象，包含以下字段：
  - `rubric_idx`：规则的唯一标识符
  - `rubric`：对规则的复述
  - `justification`：对状态变化的解释
  - `meetExpectation`：更新后的状态（true或false）
 
  # 示例输入结构：
  <trajectory_content>xxx</trajectory_content>
  <current_rubrics>xxx</current_rubrics>

  # 示例回复结构：
  ```json
  [
    {{
        "rubric_idx": "rubric_0",
        "rubric": "<复述规则>",
        "justification": "<状态变化的简要解释，以追加的形式记录>",
        "meetExpectation": <true or false>
    }},
    ...
  ]
  ```
