cd trainer

python -m torch.distributed.launch --master_port 12323 --nproc_per_node 8 fast_r2d2_glue_trainer.py \
    --max_grad_norm 1.0 --lr 5e-5 --parser_lr 1e-2 \
    --config_path ../data/en_config/fast_r2d2_match.json \
    --vocab_dir ../data/en_config/ \
    --task_type mnli --glue_dir ../data/glue/MNLI --max_batch_len 3072 \
    --max_batch_size 16 --output_dir ../data/r2d2_dp_tree \
    --epochs 10 --pretrain_dir ../data/pretrain_dir \
    --log_step 50 --num_samples 256 --sampler random --apex_mode O0