
import json
import pandas as pd
import numpy as np

class NumpyEncoder(json.JSONEncoder):
    """处理 NumPy 数据类型的 JSON 编码器"""
    def default(self, obj):
        if isinstance(obj, np.integer):
            return int(obj)
        elif isinstance(obj, np.floating):
            return float(obj)
        elif isinstance(obj, np.ndarray):
            return obj.tolist()
        elif isinstance(obj, np.bool_):
            return bool(obj)
        return super(NumpyEncoder, self).default(obj)

def parquet_to_json(parquet_file, json_file):
    """
    将 parquet 文件转换为 JSON 格式
    每一行转换为一个 JSON 对象，列名作为 key
    """
    try:
        # 读取 parquet 文件W
        df = pd.read_parquet(parquet_file)
        
        # 将 DataFrame 转换为字典列表
        records = df.to_dict('records')
        
        # 保存为 JSON 文件，使用自定义编码器
        with open(json_file, 'w', encoding='utf-8') as f:
            json.dump(records, f, ensure_ascii=False, indent=2, cls=NumpyEncoder)
            
        print(f"转换完成！")
        print(f"总共转换了 {len(records)} 条记录")
        print(f"包含的字段: {list(df.columns)}")
        print(f"结果已保存到: {json_file}")
        
    except Exception as e:
        print(f"转换过程中出现错误: {e}")

def main():
    # 设置输入输出文件路径
    parquet_file = '/home/pengruotian/sphere-prover/benchmarks/BlueMO/train_bluemo_verl.parquet'  # 请修改为您的 parquet 文件路径
    json_file = '/home/pengruotian/sphere-prover/benchmarks/BlueMO/train_bluemo_verl.json'      # 输出的 JSON 文件路径
    
    # 执行转换
    parquet_to_json(parquet_file, json_file)

if __name__ == "__main__":
    main() 