ViT-Base: DeIT-3 training

400 epoch training command:

python -m torch.distributed.launch --nproc_per_node=8 deit/main.py --model deit_base_patch16_LS --batch 256 --lr 3e-3 --epochs 400 --weight-decay 0.05 --sched cosine --input-size 192 --eval-crop-ratio 1.0 --reprob 0.0 --smoothing 0.0 --warmup-epochs 5 --drop 0.0 --seed 0 --opt lamb --warmup-lr 1e-6 --mixup .8 --drop-path 0.2 --cutmix 1.0 --unscale-lr --repeated-aug --bce-loss --color-jitter 0.3 --ThreeAugment


20 epoch finetuning command:

python -m torch.distributed.launch --nproc_per_node=8 deit/main.py --model deit_base_patch16_LS --batch 128 --lr 1e-5 --epochs 20 --weight-decay 0.1 --sched cosine --input-size 224 --eval-crop-ratio 1.0 --reprob 0.0 --smoothing 0.1 --warmup-epochs 5 --drop 0.0 --seed 0 --opt adamw --warmup-lr 1e-6 --mixup .8 --drop-path 0.2 --cutmix 1.0 --unscale-lr --aa rand-m9-mstd0.5-inc1 --no-repeated-aug --finetune path/to/training/dir/best_checkpoint.pth 
