DATA_DIR=data
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 10  --cluster-run-name test_news_moe_grad_10k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200  --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_10k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_10k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 100 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_10k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.2 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_static_10k --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_lstm_100k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer grad --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 100  --cluster-run-name test_news_moe_grad_100k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture moe --emsize 200 --nhid 550 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer lstm --weights-lstm-nhid 200 --clear-lstm-hidden --max-memory-size 5 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1 --weight-normalization --cluster-run-name test_news_moe_lstm_100k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 1300 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 1 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static --emsize 200 --nhid 200 --lr 0.001 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 2 --optimizer Adam --cuda --cluster-run-name test_news_static_100k --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 1300 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 9 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 0 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 1 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 2 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 3 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 4 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 5 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 6 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 7 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 8 --data $DATA_DIR/news_test
python3 main.py --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 200 --lr 0.001 --learn-iterations 5 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 9 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 0 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 1 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 2 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 3 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 4 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 5 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 6 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 7 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 8 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 5 --lang-switch 10000 --total-length 1000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_10k --seed 9 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 0 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 1 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 2 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 3 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 4 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 5 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 6 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 7 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 8 --data $DATA_DIR/news_test
python3 main.py  --architecture static_per_domain --debug-reveal-domain --emsize 200 --nhid 550 --lr 0.001 --learn-iterations 2 --lang-switch 100000 --total-length 10000000 --dropout 0.2 --optimizer Adam --cuda --cluster-run-name test_news_static_per_domain_100k --seed 9 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 0 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 1 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 2 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 3 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 4 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 5 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 6 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 7 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 8 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 42 --transformer-warmup 40 --nhead 32 --nlayers 3 --total-length 1000000 --lang-switch 10000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_10k --seed 9 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 0 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 1 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 2 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 3 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 4 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 5 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 6 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 7 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 8 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 2048 --nhid 2048 --lr 0.001 --nhead 32 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 9 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 0 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 1 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 2 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 3 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 4 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 5 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 6 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 7 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 8 --data $DATA_DIR/news_test
python3 main.py  --architecture transformer --bptt 100 --emsize 768 --nhid 768 --lr 42 --nhead 16 --transformer-warmup 40 --nlayers 1 --total-length 10000000 --lang-switch 100000 --dropout 0.1 --learn-iterations 5 --optimizer Adam --cuda --cluster-run-name test_news_transformer_100k --seed 9 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 2 --total-length 1000000 --lang-switch 10000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_10k --cuda --seed 9 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 0 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 1 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 2 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 3 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 4 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 5 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 6 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 7 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 8 --data $DATA_DIR/news_test
python3 main.py  --architecture moe --emsize 200 --nhid 200 --lr 0.001 --weights-trainer-lr 0.001 --learn-iterations 1 --total-length 10000000 --lang-switch 100000 --generate-length 100 --weights-trainer fixed --max-memory-size 30 --dropout 0.2 --optimizer Adam --weights-trainer-iterations 1  --cluster-run-name test_news_moe_fixed_100k --cuda --seed 9 --data $DATA_DIR/news_test
