python3 -m experiments.evaluate_model \
    --model_name=gpt-j-6B \
    --dataset_size_limit 2500 \
    --mode=easy