TASK_NAME=SST-2

python -m torch.distributed.launch --master_port 12307 --nproc_per_node 8 trainer/fast_r2d2_glue_trainer.py \
    --max_grad_norm 1.0 --lr 5e-5 --parser_lr 1e-2 \
    --config_path data/pretrain_dir/config.json \
    --vocab_dir data/pretrain_dir \
    --task_type sst-2 --glue_dir data/glue/$TASK_NAME --max_batch_len 1536 \
    --max_batch_size 16 --output_dir data/save/sst2_noise2 \
    --epochs 10 --pretrain_dir data/pretrain_dir \
    --log_step 50 --num_samples 256 --apex_mode O1 \
    --noise_corpus data/wiki103/wiki.span.200.ids --empty_label_idx -100 \
    --model_name fastr2d2_dp