import json
import os

# --- 配置 ---
# **重要**: 确保这个文件名与你新评测脚本的输出文件名一致
RESULTS_FILE = 'mmau_results_base_llm.jsonl'

def calculate_overall_accuracy(file_path: str):
    """
    读取评测结果文件，计算并打印总的正确率。
    此版本已适配不包含 'was_truncated' 字段的新数据格式。

    Args:
        file_path (str): 评测结果文件的路径。
    """
    # 检查文件是否存在
    if not os.path.exists(file_path):
        print(f"错误: 结果文件未找到: '{file_path}'")
        print("请确保脚本与结果文件在同一个目录下，或者提供正确的文件路径。")
        return

    total_items = 0
    correct_items = 0

    print(f"正在从 '{file_path}' 文件中读取结果...")

    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                # 跳过空行
                if not line.strip():
                    continue
                
                try:
                    # 解析每一行的 JSON 数据
                    data = json.loads(line)
                    total_items += 1
                    
                    # 核心逻辑: 检查 'llm_judge_is_correct' 字段是否存在且值为 True
                    if data.get('llm_judge_is_correct') is True:
                        correct_items += 1
                        
                except json.JSONDecodeError:
                    print(f"警告: 发现并跳过一个格式错误的JSON行: {line.strip()}")
                except KeyError:
                    print(f"警告: 发现一行缺少 'llm_judge_is_correct' 字段，已跳过: {line.strip()}")

        # 计算正确率，并处理总数为0的特殊情况
        if total_items == 0:
            accuracy = 0.0
            print("\n文件中没有找到有效的评测记录。")
        else:
            accuracy = (correct_items / total_items) * 100

        # 打印最终的统计报告
        print("\n" + "="*35)
        print("       评测结果总体报告")
        print("="*35)
        print(f"总计评测样本数: {total_items}")
        print(f"LLM Judge 判定正确数: {correct_items}")
        print(f"LLM Judge 判定错误数: {total_items - correct_items}")
        print(f"最终正确率: {accuracy:.2f}%")
        print("="*35)

    except Exception as e:
        print(f"\n处理文件时发生意外错误: {e}")


if __name__ == "__main__":
    calculate_overall_accuracy(RESULTS_FILE)