{"trial": 10, "trial_seed": 51, "subject": "TruthfulQA", "method": "standard", "calibration_size": 300, "test_size": 384, "small_model_accuracy": 0.5730994152046783, "large_model_accuracy": 0.8318713450292398, "small_model_cost": 3.1980847953216366e-05, "large_model_cost": 0.0006141900584795336, "hybrid_results": {"0.05": {"accuracy": 0.7942708333333334, "large_model_usage": 0.6927083333333334, "small_model_usage": 0.30729166666666663, "avg_lambda": 0.8000000000000057, "avg_cost": 0.0004576731770833331, "unrestricted": {"accuracy": 0.8072916666666666, "large_model_usage": 0.6927083333333334, "avg_cost": 0.00046217317708333305}, "random_baseline": {"accuracy": 0.7651041666666666, "accuracy_std": 0.008854166666666665, "avg_cost": 0.00046076773437500016, "cost_std": 1.042205270744942e-05, "small_model_fraction": 0.2688327126510232}, "unrestricted_random_baseline": {"accuracy": 0.76484375, "accuracy_std": 0.011936631912881078, "avg_cost": 0.0004565917447916667, "cost_std": 7.975529981030984e-06, "small_model_fraction": 0.2611035322831415}}, "0.1": {"accuracy": 0.7708333333333334, "large_model_usage": 0.6223958333333334, "small_model_usage": 0.37760416666666663, "avg_lambda": 0.699999999999995, "avg_cost": 0.0004016940104166666, "unrestricted": {"accuracy": 0.7942708333333334, "large_model_usage": 0.6223958333333334, "avg_cost": 0.0004189179687499999}, "random_baseline": {"accuracy": 0.73828125, "accuracy_std": 0.012610729180003371, "avg_cost": 0.000399698151041667, "cost_std": 1.12218154956431e-05, "small_model_fraction": 0.36498228509777536}, "unrestricted_random_baseline": {"accuracy": 0.7481770833333333, "accuracy_std": 0.011294400230313266, "avg_cost": 0.0004148740364583336, "cost_std": 6.079155865846771e-06, "small_model_fraction": 0.3353984894072832}}, "0.15": {"accuracy": 0.7135416666666666, "large_model_usage": 0.3880208333333333, "small_model_usage": 0.6119791666666667, "avg_lambda": 0.5, "avg_cost": 0.0002648658854166667, "unrestricted": {"accuracy": 0.734375, "large_model_usage": 0.3880208333333333, "avg_cost": 0.00027477734375}, "random_baseline": {"accuracy": 0.6950520833333333, "accuracy_std": 0.01602990978803376, "avg_cost": 0.0002722142968750002, "cost_std": 1.240519168496386e-05, "small_model_fraction": 0.5999976756586825}, "unrestricted_random_baseline": {"accuracy": 0.6861979166666667, "accuracy_std": 0.010169595932170133, "avg_cost": 0.0002698165104166668, "cost_std": 1.3555347554474222e-05, "small_model_fraction": 0.5829737980659984}}, "0.2": {"accuracy": 0.6875, "large_model_usage": 0.3255208333333333, "small_model_usage": 0.6744791666666667, "avg_lambda": 0.40000000000000285, "avg_cost": 0.00022272526041666656, "unrestricted": {"accuracy": 0.7161458333333334, "large_model_usage": 0.3255208333333333, "avg_cost": 0.00023517317708333335}, "random_baseline": {"accuracy": 0.6583333333333332, "accuracy_std": 0.013770108402502387, "avg_cost": 0.0002227102604166668, "cost_std": 1.1372728354495801e-05, "small_model_fraction": 0.6723782293120764}, "unrestricted_random_baseline": {"accuracy": 0.67421875, "accuracy_std": 0.020750159491522258, "avg_cost": 0.00023489635416666681, "cost_std": 1.1582145559324417e-05, "small_model_fraction": 0.6509977419518475}}, "0.25": {"accuracy": 0.6432291666666666, "large_model_usage": 0.2760416666666667, "small_model_usage": 0.7239583333333333, "avg_lambda": 0.3100000000000015, "avg_cost": 0.00018720963541666644, "unrestricted": {"accuracy": 0.7005208333333334, "large_model_usage": 0.2760416666666667, "avg_cost": 0.0002041158854166665}, "random_baseline": {"accuracy": 0.6502604166666666, "accuracy_std": 0.010677083333333335, "avg_cost": 0.00018350604166666654, "cost_std": 1.3715835604107492e-05, "small_model_fraction": 0.7333797118683106}, "unrestricted_random_baseline": {"accuracy": 0.6588541666666667, "accuracy_std": 0.01035135776789156, "avg_cost": 0.00021185218750000004, "cost_std": 1.0215589256176701e-05, "small_model_fraction": 0.7043416106250878}}}}