python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 50  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_10k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_10k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 0
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 1
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 2
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 3
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 4
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 5
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 6
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 7
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 8
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 9
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 0
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 1
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 2
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 3
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 4
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 5
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 6
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 7
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 8
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 9
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 0
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 1
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 2
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 3
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 4
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 5
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 6
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 7
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 8
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.0001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_10k --seed 9
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 0
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 1
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 2
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 3
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 4
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 5
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 6
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 7
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 8
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_10k --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 1600 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_domains_moe_grad_20k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_lstm_20k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 0
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 1
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 2
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 3
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 4
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 5
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 6
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 7
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 8
python main.py --model-level word --data data/domain_test --architecture simple --emsize 200 --nhid 5200 --lr 0.001 --total-length 2000000 --lang-switch 20000 --dropout 0.4 --learn-iterations 1 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_20k --seed 9
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 0
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 1
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 2
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 3
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 4
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 5
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 6
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 7
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 8
python main.py --model-level word --data data/domain_test --architecture simple_per_domain --debug-reveal-domain --emsize 200 --nhid 1800 --lr 0.001 --learn-iterations 2 --lang-switch 20000 --total-length 2000000 --dropout 0.2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_simple_per_domain_20k --seed 9
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 0
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 1
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 2
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 3
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 4
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 5
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 6
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 7
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 8
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 0.001 --nhead 16 --nlayers 1 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_10k --seed 9
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 0
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 1
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 2
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 3
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 4
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 5
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 6
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 7
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 8
python main.py --model-level word --data data/domain_test --architecture transformer --bptt 100 --emsize 768 --nhid 768 --transformer-warmup 40 --lr 42 --nhead 16 --nlayers 3 --total-length 2000000 --lang-switch 20000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cluster-run --cuda --cluster-run-name test_domains_transformer_20k --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_10k --cluster-run --cuda --seed 9
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 0
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 1
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 2
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 3
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 4
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 5
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 6
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 7
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 8
python main.py --model-level word --data data/domain_test --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 2000000 --lang-switch 20000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_domains_moe_fixed_20k --cluster-run --cuda --seed 9
