# #!/usr/bin/bash
mkdir -p "./traces"

NSYS_DELAY=0
NSYS_DURATION=30

NSYS_CMD="nsys profile \
                --trace=cuda,nvtx,osrt,cudnn,cublas \
                --sample=cpu \
                --output="./traces" \
                --export=sqlite \
                --force-overwrite=true \
                --trace-fork-before-exec=true \
                --delay=${NSYS_DELAY} \
                --duration=${NSYS_DURATION} \
                --stats=true"

$NSYS_CMD torchrun --nproc_per_node=8 symm_all_to_all_4d_test.py