# README
## Dense Model

```
cd adampower-dense
python3 -m torch.distributed.run --standalone --nproc_per_node=8 \
        train_llama_c4.py --batch_size=32 --grad_micro_steps=2 --total_bs=512 \
        --use_gradpower --gradpower=1.4 \
        --max_lr=6e-4 --model_name=0.4B --max_iters=60000 \
        --wandb_project=adampower_c4 --wandb_run_name=power-new
```

## MoE Model

```
cd adampower-moe
python3 -m torch.distributed.run --standalone --nproc_per_node=8 \
        train_moe_c4.py --batch_size=32 --grad_micro_steps=2 --total_bs=512 \
        --use_gradpower --gradpower=1.0 \
        --max_lr=1e-3 --model_name=moe-0.5B --max_iters=75000 \
        --wandb_project=adampower_c4 --wandb_run_name=power
```