M="Path to trained model"

# baseline
python src/evaluate_baseline.py --model_dir $M --dataset screenspot --batch_size 32
python src/evaluate_baseline.py --model_dir $M --dataset screenspot-pro --batch_size 32

# test time scaling
python src/evaluate_test_time_scaling.py --model_dir $M --dataset screenspot --batch_size 32 \
    --temperature 1.0 --top_k 40 --n_samples 16 --crop_size 840
python src/evaluate_test_time_scaling.py --model_dir $M --dataset screenspot-pro --batch_size 32 \
    --temperature 1.0 --top_k 40 --n_samples 16 --crop_size 840
