TASK_NAME=CoLA

python -m torch.distributed.launch --master_port 13240 --nproc_per_node 8 trainer/fast_r2d2_glue_trainer.py \
    --max_grad_norm 1.0 --lr 5e-5 --parser_lr 1e-2 \
    --config_path data/pretrain_dir/config.json \
    --vocab_dir data/pretrain_dir \
    --task_type cola --glue_dir data/glue/$TASK_NAME --max_batch_len 1536 \
    --max_batch_size 8 --output_dir data/save/finetune_cola_rand \
    --epochs 10 --pretrain_dir data/pretrain_dir \
    --log_step 20 --num_samples 256 --sampler random --apex_mode O0 \
    --enable_dp --empty_label_idx -1