CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --lr 0.1 --weight-decay 1e-4 --warmup 5 --opt-level O3 ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --lr 0.1 --weight-decay 1e-4 --warmup 5 --opt-level O3 --scale-lr ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --lr 0.1 --weight-decay 1e-4 --warmup 5 --opt-level O3 --epochs 200 ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --lr 0.1 --weight-decay 1e-4 --warmup 5 --opt-level O3 --epochs 200 --scale-lr ~/path/to/imagenet/

CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --adamw --lr 0.003 --weight-decay 1e-1 --gradient-accumulation 4 --warmup 8 --opt-level O3 --epochs 200 ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --adamw --lr 0.003 --weight-decay 1e-1 --gradient-accumulation 4 --warmup 8 --opt-level O3 --epochs 200 --scale-lr ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --adamw --lr 0.003 --weight-decay 1e-1 --gradient-accumulation 4 --warmup 8 --opt-level O3 --epochs 300 --data-augmentation ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a resnet50 -b 256 --adamw --lr 0.003 --weight-decay 1e-1 --gradient-accumulation 4 --warmup 8 --opt-level O3 --epochs 300 --data-augmentation --scale-lr ~/path/to/imagenet/

CUDA_VISIBLE_DEVICES=0 python3 main.py -a vit_s_16 -b 256 --lr 0.8 --weight-decay 5e-5 --gradient-accumulation 16 --warmup 32 --opt-level O3 --epochs 300 ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a vit_s_16 -b 256 --lr 1.6 --weight-decay 5e-5 --gradient-accumulation 16 --warmup 32 --opt-level O3 --epochs 300 --scale-lr ~/path/to/imagenet/

CUDA_VISIBLE_DEVICES=0 python3 main.py -a vit_s_16 -b 256 --adamw --lr 0.01 --weight-decay 1e-1 --gradient-accumulation 16 --warmup 32 --opt-level O3 --epochs 300 ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a vit_s_16 -b 256 --adamw --lr 0.01 --weight-decay 1e-1 --gradient-accumulation 16 --warmup 32 --opt-level O3 --epochs 300 --scale-lr ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a vit_s_16 -b 256 --adamw --lr 0.01 --weight-decay 1e-1 --gradient-accumulation 16 --warmup 32 --opt-level O3 --epochs 300 --data-augmentation ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a vit_s_16 -b 256 --adamw --lr 0.01 --weight-decay 1e-1 --gradient-accumulation 16 --warmup 32 --opt-level O3 --epochs 300 --data-augmentation --scale-lr ~/path/to/imagenet/

CUDA_VISIBLE_DEVICES=0 python3 main.py -a swin_t -b 256 --adamw --lr 0.001 --weight-decay 5e-2 --gradient-accumulation 4 --warmup 20 --opt-level O3 --epochs 300 --data-augmentation ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a swin_t -b 256 --adamw --lr 0.001 --weight-decay 5e-2 --gradient-accumulation 4 --warmup 20 --opt-level O3 --epochs 300 --data-augmentation --scale-lr ~/path/to/imagenet/

CUDA_VISIBLE_DEVICES=0 python3 main.py -a convnext_t -b 256 --adamw --lr 0.004 --weight-decay 5e-2 --gradient-accumulation 16 --warmup 20 --opt-level O3 --epochs 300 --data-augmentation ~/path/to/imagenet/
CUDA_VISIBLE_DEVICES=0 python3 main.py -a convnext_t -b 256 --adamw --lr 0.004 --weight-decay 5e-2 --gradient-accumulation 16 --warmup 20 --opt-level O3 --epochs 300 --data-augmentation --scale-lr ~/path/to/imagenet/
