


import pandas as pd
import os
from pathlib import Path

BASE_DIR = Path(__file__).resolve().parent if "__file__" in globals() else Path.cwd()
ROOT_DIR = BASE_DIR
while ROOT_DIR != ROOT_DIR.parent and not (ROOT_DIR / "process_tabular").is_dir():
    ROOT_DIR = ROOT_DIR.parent


INPUT_FOLDER = ROOT_DIR / "process_tabular" / "raw_data"         
OUTPUT_FOLDER = ROOT_DIR / "process_tabular" / "processed_results"  


OUTPUT_FOLDER.mkdir(parents=True, exist_ok=True)


input_files = [
    ,
    ,
    ,
    ,
    ,
]

print("🔎 Bắt đầu tối ưu AUCROC + chỉnh sửa cột Model...\n")


def optimize_file(file_name):
    input_path = INPUT_FOLDER / file_name

    if not input_path.exists():
        print(f"⚠️  File không tồn tại: {file_name}")
        return

    print(f"📌 Đang xử lý file: {file_name}")

    
    df = pd.read_csv(input_path)

    
    if "Dataset" not in df.columns or "AUCROC" not in df.columns:
        print(f"❌ File {file_name} không có Dataset hoặc AUCPR — bỏ qua.")
        return

    
    best_df = df.loc[df.groupby("Dataset")["AUCROC"].idxmax()]
    best_df = best_df.sort_values(by="Dataset").reset_index(drop=True)

    
    for col in ["Scaler", "Threshold"]:
        if col in best_df.columns:
            best_df = best_df.drop(columns=[col])

    
    best_df["Model"] = "DVM-AD"

    
    cols = best_df.columns.tolist()

    if "Model" in cols:
        cols.insert(1, cols.pop(cols.index("Model")))  
        best_df = best_df[cols]

    
    output_path = OUTPUT_FOLDER / file_name
    best_df.to_csv(output_path, index=False)

    print(f"✅ Đã xuất file: {output_path}")
    print(f"🔝 Mean AUCPR: {best_df['AUCPR'].mean():.4f}")
    print(f"📊 Số dataset: {best_df['Dataset'].nunique()}\n")



for file in input_files:
    optimize_file(file)

print("🎉 Hoàn tất! Tất cả file đã tối ưu và lưu vào thư mục processed_results/")
