python train.py \
    --accumulation-steps=2 \
    --amp \
    --amp-dtype=float16 \
    --batch-size=128 \
    --best-save-start-epoch=0 \
    --crop-pct=0.95 \
    --data-dir=<data-dir> \
    --dataset=hard/imagenet \
    --dataset-id=soft/imagenet \
    --epochs=50 \
    --evaluate-on-test-sets \
    --img-size=256 \
    --log-wandb \
    --loss=sigmoid-nll \
    --lr=2.4571438773847112e-05 \
    --mean=0.485,0.456,0.406 \
    --method-name=baseline \
    --model-name=timm/vit_little_patch16_reg4_gap_256.sbb_in1k \
    --momentum=0.9 \
    --num-classes=1000 \
    --opt=nadamw \
    --pin-memory \
    --predictive=logit_link_sigmoid_output \
     --prefetcher \
     --pretrained \
     --reset-classifier \
     --sched-kwargs="sched=cosine warmup_lr=1.0e-06 warmup_epochs=1" \
     --seed=42 \
     --soft-imagenet-label-dir=<soft-imagenet-label-dir> \
     --std=0.229,0.224,0.225 \
     --test-split=val \
     --weight-decay=0.06
