{"trial": 27, "trial_seed": 68, "subject": "TruthfulQA", "method": "standard", "calibration_size": 300, "test_size": 384, "small_model_accuracy": 0.543859649122807, "large_model_accuracy": 0.8260233918128655, "small_model_cost": 3.200994152046785e-05, "large_model_cost": 0.0006160818713450303, "hybrid_results": {"0.05": {"accuracy": 0.7916666666666666, "large_model_usage": 0.7135416666666666, "small_model_usage": 0.28645833333333337, "avg_lambda": 0.8000000000000057, "avg_cost": 0.0004691822916666668, "unrestricted": {"accuracy": 0.8020833333333334, "large_model_usage": 0.7135416666666666, "avg_cost": 0.0004761770833333333}, "random_baseline": {"accuracy": 0.7500000000000001, "accuracy_std": 0.011470164346638152, "avg_cost": 0.00047361018229166675, "cost_std": 1.127581574990805e-05, "small_model_fraction": 0.251509398375792}, "unrestricted_random_baseline": {"accuracy": 0.7575520833333333, "accuracy_std": 0.008593749999999995, "avg_cost": 0.00048008515625000013, "cost_std": 1.0786500119376262e-05, "small_model_fraction": 0.23953349042766048}}, "0.1": {"accuracy": 0.71875, "large_model_usage": 0.5, "small_model_usage": 0.5, "avg_lambda": 0.6699999999999946, "avg_cost": 0.00033775520833333335, "unrestricted": {"accuracy": 0.7369791666666666, "large_model_usage": 0.5, "avg_cost": 0.0003427083333333334}, "random_baseline": {"accuracy": 0.6825520833333334, "accuracy_std": 0.013604122798551029, "avg_cost": 0.00033491869791666643, "cost_std": 1.4276457485412565e-05, "small_model_fraction": 0.47652805895893313}, "unrestricted_random_baseline": {"accuracy": 0.6791666666666667, "accuracy_std": 0.019962258225767502, "avg_cost": 0.00033357072916666644, "cost_std": 1.6039859270306696e-05, "small_model_fraction": 0.4680477250358703}}, "0.15": {"accuracy": 0.6770833333333334, "large_model_usage": 0.4375, "small_model_usage": 0.5625, "avg_lambda": 0.5, "avg_cost": 0.00029198958333333307, "unrestricted": {"accuracy": 0.7213541666666666, "large_model_usage": 0.4375, "avg_cost": 0.0003042968749999998}, "random_baseline": {"accuracy": 0.6515625, "accuracy_std": 0.013868257245514947, "avg_cost": 0.00028923841145833316, "cost_std": 9.686484215513106e-06, "small_model_fraction": 0.5548842042606718}, "unrestricted_random_baseline": {"accuracy": 0.6684895833333333, "accuracy_std": 0.010677083333333332, "avg_cost": 0.00029714986979166634, "cost_std": 1.2947000934097722e-05, "small_model_fraction": 0.5338126700228194}}, "0.2": {"accuracy": 0.6614583333333334, "large_model_usage": 0.3489583333333333, "small_model_usage": 0.6510416666666667, "avg_lambda": 0.40000000000000285, "avg_cost": 0.00023498958333333323, "unrestricted": {"accuracy": 0.6875, "large_model_usage": 0.3489583333333333, "avg_cost": 0.0002492083333333333}, "random_baseline": {"accuracy": 0.6205729166666667, "accuracy_std": 0.012437452016937037, "avg_cost": 0.0002265286197916664, "cost_std": 1.2580302383597335e-05, "small_model_fraction": 0.6524749239809653}, "unrestricted_random_baseline": {"accuracy": 0.6395833333333334, "accuracy_std": 0.013134916888456761, "avg_cost": 0.0002481712499999997, "cost_std": 9.271909870782296e-06, "small_model_fraction": 0.6281307477349488}}, "0.25": {"accuracy": 0.5989583333333334, "large_model_usage": 0.2552083333333333, "small_model_usage": 0.7447916666666667, "avg_lambda": 0.29000000000000226, "avg_cost": 0.00017289583333333325, "unrestricted": {"accuracy": 0.6510416666666666, "large_model_usage": 0.2552083333333333, "avg_cost": 0.00019152083333333323}, "random_baseline": {"accuracy": 0.59296875, "accuracy_std": 0.017740855552344895, "avg_cost": 0.00016778609374999993, "cost_std": 1.607523030526785e-05, "small_model_fraction": 0.7587867442025792}, "unrestricted_random_baseline": {"accuracy": 0.5973958333333333, "accuracy_std": 0.016764038478574043, "avg_cost": 0.00019067119791666657, "cost_std": 1.532888763428707e-05, "small_model_fraction": 0.7268985485045008}}}}