#!/bin/bash


#model="meta-llama/Llama-3.2-3B"
model="Qwen/Qwen2-7B"
dataset_name="random"
num_prompts=40
output_len=1

result_folder=result_prefill

mkdir -p $result_folder

for input_len in $(seq 128 128 896; seq 1024 512 8192);
do
	python3 ../benchmark_serving2.py \
		  --backend vllm \
		  --model $model \
		  --percentile-metrics ttft,tpot,itl,e2el \
		  --dataset-name $dataset_name \
		  --random-input-len $input_len \
		  --random-output-len $output_len \
		  --num-prompts $num_prompts \
		  --port 8000 \
		  --request-rate 1 
done
