CUDA_VISIBLE_DEVICES=1 python src/Inference/infer_llama_vllm.py \
    --model_name /data/share/models/llama-2-7b-chat-hf \
    --batch_size 8 \
    --save_name outputs/triviaqa_test_llama_2_7B_chat_threshold_1.0_idk_prompt_greedy_infer.json \
    --prompt_file Idk_datasets/sft_data/llama-2-7b-chat/triviaqa_test_threshold_1.0_sft_data.json \
    --response_num 1 \
    --top_k 1 \
    --idk_prompt True \
    --tensor_parallel_size 1

