name: full_trajectory_eval_template
chinese: |-
  # 系统信息
  {env_info}

  # 用户完整指令
  {user_instruction}

  # 背景说明
  - 这是一个user与assistant之间的对话场景，其中assistant可以调用工具获取信息和完成操作，工具返回结果将以tool开头
  - 你需要评估用户指令是否被完成
  - <trajectory_content>包含了user与assistant之间的完整对话内容

  # 任务
  - 基于对话内容，判断用户完整指令中所有子需求是否被全部完成
  
  # 注意事项
  - 重要：所有的评估以assistant的回复及工具调用请求是否完成用户指令为准，user在对话中表达的内容仅视为对assistant的提示和引导，不会直接影响评估标准，一切以用户指令为准！
  - 重要：查询类tool返回的结果仅对assistant可见，并不代表assistant对用户推荐的内容，因此也不直接影响评估结果，一切都要以assistant获取信息后对用户的回复为准！同时需要注意，Assistant 也不能编造 Tool 的返回结果！
  - 重要：对于购买类指令（涉及到订单细节，必须生成订单的），必须确认assistant是否真的完成了下单操作。有可能assistant误以为完成了下单操作，实际上工具调用失败；或user表示可以“可以自己下单”等情况，都应视为未满足要求
  - 对于涉及到订单细节如商品数量、送达时间的用户指令，必须严格满足原始用户指令要求（不能有商品数量偏差，不得晚于期望送达时间），用户妥协行为不影响评判结果（例如user表示“某商品少点也行”、“对订单内容没有异议”或“晚点送达也行”等），这类情况仍应视为未满足要求
  - 对于涉及到文本内容匹配的地址或订单备注类的用户指令，采用功能等效原则：只要实际内容能实现相同功能（如大致定位配送地点或传达顾客的主要需求），即使表述不完全一致或缺少部分细节，也视为满足要求
  - 在justification中记录与用户指令有关的关键信息、判断是否完成的依据及其对应的轮次[x]

  # 格式要求
  - 你的回复应为一个JSON对象，包含以下字段：
  - `justification`：对评估结果的简要解释
  - `meetExpectation`：评估结果（true或false）
 
  # 示例输入结构：
  <trajectory_content>xxx</trajectory_content>

  # 示例回复结构：
  ```json
  {{
      "justification": "<对评估结果的简要解释>",
      "meetExpectation": <true or false>
  }}
  ```
