import sys
import os
import struct

sys.path.append("/root/gpt-neox")

try:
    from megatron.data.indexed_dataset import MMapIndexedDataset
except ImportError:
    print("❌ 无法导入")
    exit(1)

VALID_FILE = "/root/trainbin1/document1"

print(f"🕵️‍♀️ 尝试加载好文件: {VALID_FILE}")

try:
    # 加载 document1
    ds = MMapIndexedDataset(VALID_FILE, skip_warmup=True)
    print("✅ Document1 加载成功！")
    
    # 偷窥内部属性
    print(f"   ds._index.dtype: {ds._index.dtype}")
    print(f"   ds._index.size: {len(ds)}")
    
    # 既然加载成功了，说明 document1 的 Header 是被代码认可的。
    # 我们再读一次 document1 的 Header Hex，那个就是标准答案。
    with open(VALID_FILE + ".idx", "rb") as f:
        header = f.read(18)
        
    print(f"🏆 标准答案 Header (Hex): {header.hex()}")
    
    # 同时读取 document2 对比
    with open("/root/trainbin1/document2.idx", "rb") as f:
        header2 = f.read(18)
    print(f"💩 当前错误 Header (Hex): {header2.hex()}")
    
    print("\n💡 修复建议：把 document2 的 Header 改成和 Document1 一模一样。")

except Exception as e:
    print(f"❌ Document1 加载失败: {e}")
