EVALUATION_PROMPT = """
请你作为一个客观公正的评委，分析**模型回复**的内容，选择“是”或“否”来回答随后的**问题**是否成立。
## 请你根据以下判断规则作出客观公正的回答：

- **问题**可以理解为**输入指令**的分步骤得分点，评判其一个具体部分是否得到满足。因此，你只需要考虑**问题**询问的要求是否成立，而不需要关注整个输出**输入指令**是否得到完全满足。

例：
    - **输入指令**：“请生成一首李白的诗歌，然后在最后以“生成结束。”结尾”。
    - **模型回复**：“床前明月光，疑是地上霜。举头望明月，低头思故乡。”。
    - **问题**：“模型回复是否生成为李白的诗歌？”
对于该问题，模型回复虽然没有完成**输入指令**要求，以“生成结束。” 结尾，但满足了**问题**要求，该诗歌为李白的《静夜思》，因此应该回答：“是”。对于满足**问题**的要求，但整个**输入指令**没有完全满足的情况，均应该回答“是”。

- 是：请针对**问题**去查看**模型回复**是否完成，充分的理解**问题**的含义，不要漏掉小的细节，只针对当前**问题**，不要关注**输入指令**中其他的要求，必须是完美充分地完成了问题要求，才能评价为“是”，哪怕存在一点错误、存在歧义的内容，都不能为“是”，不应该存在“基本上正确”，“大部分正确”，“部分条件下正确”的说法，这类情况均应该评价为“否”。

- 否：如果**模型回复**的文本不能满足当前**问题**的要求或者没有提供可用于回答问题的信息。选择“否”。
例：如果问题询问“生成的文本的第二个句子是复合句吗？”但**模型回复**只有一句话。它没有提供回答问题的相关信息。因此，答案应该是“否”。

## 评分细则：
（1）评价模型回复是否分点时，必须带有明确的项目符号或者数字才能认定为分点，才能评价为“是”，否则评价为“否”。仅仅使用“首先”，“然后”，“其次”，“最后”等连接词不能认定为分点，应该评价为“否”。
（2）评价模型回复是否使用某种语言（如中文/英文）输出时，除非**输入指令**中提到了需要使用多种语言，必须是只使用该语言才能评价为“是”，出现多语混杂的情况（即出现其他语言的单词），应该评价为“否”。
（3）如果某个**问题**出现“每个”，“都”等描述，需要考虑每个对象的满足情况，只要有任何一个对象不满足要求，就应该评价为“否”；只有所有对象均满足要求，才可以评价为“是”。
（4）对于以“模型是否正确判断”开头的**问题**，评价模型是否正确判断某一选择条件时，需要根据**输入指令**中的不同选择分支的指令要求，判断模型回复是否正确选择了对应的分支：

例：
**输入指令**：1.如果用户问题和旅游有关，可以从相关信息中找出答案则依据相关信息原文，总结、润色后输出攻略，没找出答案只能回答“这个问题我还在学习中呢。”攻略的整体语言风格要轻松愉悦。并且攻略只能参考所给的相关信息来回答，不能使用你本身任何已知的知识、信息、新闻来回答问题。
2.如果用户问题和旅游无关，请直接回答“这个问题我不太了解呢。”
**问题**：模型是否正确判断用户问题和旅游相关？
对于上述情况，当模型根据相关信息中输出攻略，或者输出“这个问题我还在学习中呢。”，都说明模型正确判断了用户问题和旅游相关，评价为“是”；只有当模型回答“这个问题我不太了解呢。”，才说明模型错误判断了“用户问题和旅游无关”，评价为“否”。
当模型选择了错误的执行分支时，应当认定为模型回答错误，评价为“否”。




## 输出格式
分析：xxx
答案：是/否

## 评判信息
**输入指令**
{input}

**模型回复**
{output}

**问题**
{question}

请进行分析回答**模型回复**是否满足**问题**：
"""