python -m torch.distributed.launch --nproc_per_node 8 trainer/fast_r2d2_glue_trainer.py \
    --max_grad_norm 1.0 --max_batch_size 8 --max_batch_len 100000 \
    --glue_dir data/glue/SST-2 --task_type sst-2 \
    --vocab_dir data/bert_12_wiki_103 --config_path data/bert_12_wiki_103 \
    --epoch 10 --output_dir data/save/bert_dp --log_step 100 --eval_step 30 --pretrain_dir data/bert_12_wiki_103 \
    --num_samples 256 --sampler random --model_name bert_dp --tree_path data/glue/SST-2/train.trees.txt