## 运行方式

MMLU: python mmlu.py   (参数在脚本内)
IFEval: 先模型推理，得到输出后，再 bash bash.sh
GPQA: 
MGSM: 