#!/usr/bin/env python3
"""
批量收集所有模型的评估结果
使用方法：python collect_all_results.py [--output results.csv] [--outputs-dir /path/to/outputs]
"""

import os
import sys
import argparse
from pathlib import Path
from collect_results import collect_model_results, save_results


def get_all_model_dirs(outputs_dir):
    """
    获取outputs目录下所有的模型子目录
    
    Args:
        outputs_dir: outputs目录路径
    
    Returns:
        模型目录名称列表
    """
    if not os.path.exists(outputs_dir):
        print(f"错误: outputs目录不存在: {outputs_dir}")
        return []
    
    model_dirs = []
    for item in os.listdir(outputs_dir):
        item_path = os.path.join(outputs_dir, item)
        # 只包含目录，排除文件
        if os.path.isdir(item_path):
            # 排除以T开头的临时目录（如T20251029_G5103a673）
            if not item.startswith('T'):
                model_dirs.append(item)
    
    return sorted(model_dirs)


def main():
    parser = argparse.ArgumentParser(
        description="批量收集所有模型在多个数据集上的评估结果",
        formatter_class=argparse.RawDescriptionHelpFormatter,
        epilog="""
示例:
  python collect_all_results.py
  python collect_all_results.py --output all_results.csv
  python collect_all_results.py --outputs-dir /path/to/outputs
        """
    )
    parser.add_argument("--output", "-o", default="model_results_full.csv", 
                       help="输出CSV文件路径（默认: model_results.csv）")
    parser.add_argument("--outputs-dir", default="/home/ec2-user/workspace/VLMEvalKit/outputs",
                       help="outputs目录路径")
    parser.add_argument("--skip-existing", action="store_true",
                       help="跳过已经在输出文件中的模型")
    parser.add_argument("--judge-name", default="bedrock-claude-haiku-4.5",
                       help="judge名称")
    
    args = parser.parse_args()
    
    # 获取所有模型目录
    model_dirs = get_all_model_dirs(args.outputs_dir)
    
    if not model_dirs:
        print("未找到任何模型目录")
        sys.exit(1)
    
    print(f"找到 {len(model_dirs)} 个模型目录:")
    for i, model_dir in enumerate(model_dirs, 1):
        print(f"  {i}. {model_dir}")
    print()
    
    # 如果需要跳过已存在的模型，读取现有文件
    existing_models = set()
    if args.skip_existing and os.path.exists(args.output):
        import pandas as pd
        try:
            existing_df = pd.read_csv(args.output)
            existing_models = set(existing_df["Model"].values)
            print(f"输出文件已存在，将跳过已有的 {len(existing_models)} 个模型\n")
        except Exception as e:
            print(f"警告: 无法读取现有文件: {e}\n")
    
    # 收集所有模型的结果
    success_count = 0
    skip_count = 0
    fail_count = 0
    
    for i, model_name in enumerate(model_dirs, 1):
        print(f"\n{'='*60}")
        print(f"处理模型 {i}/{len(model_dirs)}: {model_name}")
        print(f"{'='*60}")
        
        # 检查是否需要跳过
        if model_name in existing_models:
            print(f"跳过（已存在于输出文件中）")
            skip_count += 1
            continue
        
        # 收集结果
        results = collect_model_results(model_name, args.judge_name, args.outputs_dir)

        if results is None:
            print(f"✗ 收集失败")
            fail_count += 1
            continue
        
        # 保存结果
        try:
            save_results(results, args.output)
            success_count += 1
        except Exception as e:
            print(f"✗ 保存失败: {e}")
            fail_count += 1
    
    # 打印总结
    print("\n" + "="*60)
    print("批量处理完成")
    print("="*60)
    print(f"总模型数: {len(model_dirs)}")
    print(f"成功处理: {success_count}")
    print(f"跳过: {skip_count}")
    print(f"失败: {fail_count}")
    print(f"\n结果已保存到: {args.output}")
    print("="*60)
    
    # 显示最终结果
    if os.path.exists(args.output):
        try:
            import pandas as pd
            df = pd.read_csv(args.output)
            print(f"\n最终结果（共 {len(df)} 个模型）:")
            print(df.to_string(index=False))
        except Exception as e:
            print(f"无法显示最终结果: {e}")


if __name__ == "__main__":
    main()

