python evaluate.py  \
    --tasks Q \
    --hf_critic_model GAIR/autoj-13b\
    --enable_code_execution