compute_environment: LOCAL_MACHINE
debug: false
distributed_type: MULTI_GPU
downcast_bf16: 'no'
machine_rank: 2                    # 每台机器不同：node0=0, node1=1
main_training_function: main
mixed_precision: 'no'              # 可选 'fp16' 或 'bf16'
num_machines: 8                    # 2 台机器
num_processes: 64                   # 每台机器 8 个进程（对应 8 张 GPU）
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false