{"trial": 3, "trial_seed": 44, "subject": "TruthfulQA", "method": "standard", "calibration_size": 300, "test_size": 384, "small_model_accuracy": 0.5628654970760234, "large_model_accuracy": 0.8333333333333334, "small_model_cost": 3.208538011695906e-05, "large_model_cost": 0.000615087719298246, "hybrid_results": {"0.05": {"accuracy": 0.8125, "large_model_usage": 0.8125, "small_model_usage": 0.1875, "avg_lambda": 0.8999999999999971, "avg_cost": 0.0005350263020833334, "unrestricted": {"accuracy": 0.8125, "large_model_usage": 0.8125, "avg_cost": 0.00053531796875}, "random_baseline": {"accuracy": 0.8013020833333334, "accuracy_std": 0.0067958272659895255, "avg_cost": 0.0005315677864583333, "cost_std": 1.111475323136425e-05, "small_model_fraction": 0.13732606515326043}, "unrestricted_random_baseline": {"accuracy": 0.8020833333333334, "accuracy_std": 0.009461407356554655, "avg_cost": 0.0005349819270833333, "cost_std": 9.10718770805563e-06, "small_model_fraction": 0.13682578128291395}}, "0.1": {"accuracy": 0.7708333333333334, "large_model_usage": 0.6145833333333334, "small_model_usage": 0.38541666666666663, "avg_lambda": 0.7100000000000012, "avg_cost": 0.00039864088541666665, "unrestricted": {"accuracy": 0.7890625, "large_model_usage": 0.6145833333333334, "avg_cost": 0.00041369817708333313}, "random_baseline": {"accuracy": 0.74296875, "accuracy_std": 0.012382805654134117, "avg_cost": 0.00040213924479166657, "cost_std": 1.820410267255952e-05, "small_model_fraction": 0.37126237638349224}, "unrestricted_random_baseline": {"accuracy": 0.7609375, "accuracy_std": 0.010974639325888286, "avg_cost": 0.00042295468750000003, "cost_std": 1.3313269236484743e-05, "small_model_fraction": 0.3454352215768554}}, "0.15": {"accuracy": 0.7317708333333334, "large_model_usage": 0.4557291666666667, "small_model_usage": 0.5442708333333333, "avg_lambda": 0.5600000000000018, "avg_cost": 0.00030501588541666653, "unrestricted": {"accuracy": 0.7578125, "large_model_usage": 0.4557291666666667, "avg_cost": 0.00031468255208333325}, "random_baseline": {"accuracy": 0.7005208333333333, "accuracy_std": 0.008945606269436277, "avg_cost": 0.0003035476041666665, "cost_std": 9.236463462515284e-06, "small_model_fraction": 0.5318534987647131}, "unrestricted_random_baseline": {"accuracy": 0.7067708333333333, "accuracy_std": 0.010031958481384485, "avg_cost": 0.00031759841145833316, "cost_std": 1.3112681056628624e-05, "small_model_fraction": 0.5152726619189439}}, "0.2": {"accuracy": 0.7057291666666666, "large_model_usage": 0.3697916666666667, "small_model_usage": 0.6302083333333333, "avg_lambda": 0.4600000000000002, "avg_cost": 0.00024693776041666667, "unrestricted": {"accuracy": 0.7473958333333334, "large_model_usage": 0.3697916666666667, "avg_cost": 0.00026167213541666655}, "random_baseline": {"accuracy": 0.6708333333333333, "accuracy_std": 0.013541666666666667, "avg_cost": 0.00024172528645833316, "cost_std": 1.359820197166206e-05, "small_model_fraction": 0.631472524447456}, "unrestricted_random_baseline": {"accuracy": 0.6888020833333333, "accuracy_std": 0.008005430285905949, "avg_cost": 0.00028256585937499985, "cost_std": 1.4998831881532226e-05, "small_model_fraction": 0.6061992553544171}}, "0.25": {"accuracy": 0.6796875, "large_model_usage": 0.2916666666666667, "small_model_usage": 0.7083333333333333, "avg_lambda": 0.3499999999999975, "avg_cost": 0.0001988856770833333, "unrestricted": {"accuracy": 0.7239583333333334, "large_model_usage": 0.2916666666666667, "avg_cost": 0.0002131981770833334}, "random_baseline": {"accuracy": 0.6565104166666667, "accuracy_std": 0.014889367040544582, "avg_cost": 0.00020345101562499983, "cost_std": 1.0110470726222348e-05, "small_model_fraction": 0.713894292087039}, "unrestricted_random_baseline": {"accuracy": 0.65703125, "accuracy_std": 0.012491859328345255, "avg_cost": 0.00021661768229166655, "cost_std": 9.36707697571276e-06, "small_model_fraction": 0.6893446478778936}}}}