torchrun --nproc_per_node=4 test_all_reduce.py
