import sys
import os
import struct

# 1. 尝试动态导入你的 indexed_dataset 代码，直接看它定义的 MAGIC 是什么
try:
    sys.path.append("/root/gpt-neox") # 添加项目路径
    from megatron.data.indexed_dataset import MMapIndexedDataset
    
    # 获取类中定义的 Magic
    code_magic = MMapIndexedDataset._HDR_MAGIC
    print(f"🔍 [代码层面] GPT-NeoX 代码里期望的 Magic 是:")
    print(f"   Hex : {code_magic.hex()}")
    print(f"   ASCII: {code_magic}")
except Exception as e:
    print(f"⚠️ 无法直接导入代码定义: {e}")
    print("   我们将通过读取 document1 来反推。")

print("-" * 50)

# 2. 读取 document1.idx (能跑的那个) 的头部
FILE_VALID = "/root/trainbin1/document1.idx"
FILE_BROKEN = "/root/trainbin1/document2.idx"

def hex_dump(filename):
    if not os.path.exists(filename):
        print(f"❌ 找不到 {filename}")
        return
    
    with open(filename, "rb") as f:
        # 读取前 32 字节
        head = f.read(32)
        
    print(f"📂 [文件层面] {filename} 的前 32 字节:")
    
    # 打印 Hex
    hex_str = head.hex()
    formatted_hex = " ".join([hex_str[i:i+2] for i in range(0, len(hex_str), 2)])
    print(f"   Hex : {formatted_hex}")
    
    # 尝试解析
    try:
        # 尝试解析前8字节为 Magic
        magic = head[:8]
        # 尝试解析接下来8字节为 Version
        ver = struct.unpack("<Q", head[8:16])[0]
        # 尝试解析第17字节为 Dtype
        dtype = head[16]
        
        print(f"   [解析尝试] Magic={magic} | Version={ver} | DtypeCode={dtype}")
    except:
        print(f"   [解析尝试] 无法按标准格式解析")

hex_dump(FILE_VALID)
print("-" * 50)
hex_dump(FILE_BROKEN)