{
    "#": "单个GPU运行一个step时所使用的批数据量大小",
    "train_micro_batch_size_per_gpu": 1,
    "#": "在多GPU上计算梯度的平均和值前的step个数",
    "#": "train_batch_size = train_micro_batch_size_per_gpu*gradient_accumulation_steps*GPU的数量",
    "gradient_accumulation_steps": 1,
    "#": "减少冗余来优化内存使用，使得可以在有限的硬件资源上训练更大的模型 https://zhuanlan.zhihu.com/p/676796533#:~:text=loss_scale%20%3A%20%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE%E5%80%BC%EF%BC%8C%E7%94%A8%E4%BA%8E%E9%98%B2%E6%AD%A2%E5%8D%8A%E7%B2%BE%E5%BA%A6%E4%B8%8B%E7%9A%84%E6%95%B0%E5%80%BC%E4%B8%8B%E6%BA%A2%E3%80%82,loss_scale_window%3A%20%E8%B0%83%E6%95%B4%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE%E5%80%BC%E7%9A%84%E7%AA%97%E5%8F%A3%E5%A4%A7%E5%B0%8F%E3%80%82%20initial_scale_power%3A%20%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE%E7%9A%84%E5%88%9D%E5%A7%8B%E6%8C%87%E6%95%B0%E3%80%82",
    "#": "0: 退化为DDP；1：减少梯度冗余，每个GPU负担一部分的梯度；2：除了梯度外，优化模型参数的存储，每个GPU负担一些参数；3：除了前面二者还优化优化器状态的分布",
    "zero_optimization": {
        "stage": 2
    },
    "#": "是否允许在ZeRO环境中使用未经测试的优化器",
    "zero_allow_untested_optimizer": true,
    "#": "通过fp16训练相关参数",
    "fp16": {
        "#": "True为使用混合精度",
        "enabled": false,
        "#": "FP16训练的损失缩放值。默认值0.0启用动态损失缩放，否则该值将用于静态固定损失缩放",
        "loss_scale": 0,
        "#": "损失缩放的初始指数。实际损失规模计算为2^{initial_scale_power}",
        "initial_scale_power": 11,
        "#": "调整损失缩放值的窗口大小",
        "loss_scale_window": 2000,
        "#": "调整损失缩放值之前可以容忍的连续步数",
        "hysteresis": 4
    },
    "bf16": {
        "#": "True为使用混合精度",
        "enabled": true
    },
    "wall_clock_breakdown": false
}