python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=2 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=0 --nhid=200 --nlayers=2 --seed=0 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=0 --nhid=200 --nlayers=2 --seed=1 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=0 --nhid=200 --nlayers=2 --seed=3 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=0 --nhid=200 --nlayers=2 --seed=4 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=0 --nhid=200 --nlayers=2 --seed=5 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=0 --nhid=200 --nlayers=2 --seed=6 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=0 --nhid=200 --nlayers=2 --seed=7 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=0 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=1 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=2 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=3 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=4 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=5 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=6 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=7 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=8 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=9 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=2 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=4 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=5 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=2 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=4 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=5 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=0 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=1 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=2 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=3 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=4 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=5 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=6 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=7 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=8 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=9 --total-length=2000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=0 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=1 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=2 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=3 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=4 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=5 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=6 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=7 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=8 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=9 --total-length=10000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=2 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=4 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=5 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="grad" --weights-trainer-iterations=100
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=4 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=0 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=1 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=3 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=5 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=6 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=8 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="word" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=9 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=0 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=1 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=2 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=3 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=4 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=5 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=6 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=7 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=8 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=9 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=2 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=4 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=5 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=30 --model-level="char" --moe-warmup=5 --nhid=200 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=2 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=4 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=5 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=0 --nhid=550 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=0 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=1 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=2 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=3 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=4 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=5 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=6 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=7 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=8 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/domain_test" --dropout=0.2 --emsize=200 --lang-switch=20000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="word" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=9 --total-length=2000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=0 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=1 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=2 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=3 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=4 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=5 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=6 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=7 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=8 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=100000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=9 --total-length=10000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=0 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=1 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=2 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=3 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=4 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=5 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=6 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=7 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=8 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
python main.py --architecture="moe" --cluster-run --cluster-run-name="moe_test" --cuda --data="data/news_test" --dropout=0.2 --emsize=200 --lang-switch=10000 --learn-iterations=1 --log-dir="logs" --lr=0.001 --max-memory-size=5 --model-level="char" --moe-warmup=5 --nhid=550 --nlayers=2 --seed=9 --total-length=1000000 --weights-trainer="lstm" --weights-trainer-iterations=1
