python evaluation_metrics.py --input output/single_step_bulk_o4-mini_results.json
python evaluation_metrics.py --input output/single_step_resource_o4-mini_results.json
python evaluation_metrics.py --input output/single_step_request_o4-mini_results.json
python evaluation_metrics.py --input output/single_step_code_resource_o4-mini_results.json
python evaluation_metrics.py --input output/multi_step_resource_o4-mini_results.json
python evaluation_metrics.py --input output/multi_step_code_resource_o4-mini_results.json
python evaluation_metrics.py --input output/multi_step_code_resource_gpt-4.1_results.json
python evaluation_metrics.py --input output/multi_step_code_resource_o4-mini_results.json