{"trial": 11, "trial_seed": 52, "subject": "TruthfulQA", "method": "standard", "calibration_size": 300, "test_size": 384, "small_model_accuracy": 0.554093567251462, "large_model_accuracy": 0.827485380116959, "small_model_cost": 3.2059356725146234e-05, "large_model_cost": 0.0006148479532163749, "hybrid_results": {"0.05": {"accuracy": 0.8203125, "large_model_usage": 1.0, "small_model_usage": 0.0, "avg_lambda": 1.0, "avg_cost": 0.000646898958333333, "unrestricted": {"accuracy": 0.8203125, "large_model_usage": 1.0, "avg_cost": 0.000646898958333333}, "random_baseline": {"accuracy": 0.8203125, "accuracy_std": 0.0, "avg_cost": 0.0006148541666666665, "cost_std": 1.0842021724855044e-19, "small_model_fraction": 0.0}, "unrestricted_random_baseline": {"accuracy": 0.8203125, "accuracy_std": 0.0, "avg_cost": 0.0006148541666666665, "cost_std": 1.0842021724855044e-19, "small_model_fraction": 0.0}}, "0.1": {"accuracy": 0.7473958333333334, "large_model_usage": 0.6302083333333334, "small_model_usage": 0.36979166666666663, "avg_lambda": 0.699999999999995, "avg_cost": 0.0004069718749999996, "unrestricted": {"accuracy": 0.7760416666666666, "large_model_usage": 0.6302083333333334, "avg_cost": 0.00042228958333333276}, "random_baseline": {"accuracy": 0.7260416666666666, "accuracy_std": 0.010974639325888288, "avg_cost": 0.0004059272916666666, "cost_std": 9.240079933984094e-06, "small_model_fraction": 0.3566920826315516}, "unrestricted_random_baseline": {"accuracy": 0.7341145833333332, "accuracy_std": 0.008514470168891567, "avg_cost": 0.0004195126041666666, "cost_std": 1.2931078444715395e-05, "small_model_fraction": 0.33040860964399515}}, "0.15": {"accuracy": 0.7057291666666666, "large_model_usage": 0.4817708333333333, "small_model_usage": 0.5182291666666667, "avg_lambda": 0.5800000000000045, "avg_cost": 0.0003172114583333333, "unrestricted": {"accuracy": 0.7291666666666666, "large_model_usage": 0.4817708333333333, "avg_cost": 0.0003305083333333332}, "random_baseline": {"accuracy": 0.6802083333333333, "accuracy_std": 0.017422634045497626, "avg_cost": 0.0003213349739583333, "cost_std": 1.4915574958527513e-05, "small_model_fraction": 0.5107109107402057}, "unrestricted_random_baseline": {"accuracy": 0.6872395833333333, "accuracy_std": 0.013096136417375163, "avg_cost": 0.0003269692187499999, "cost_std": 1.6155355312509785e-05, "small_model_fraction": 0.4878949615605961}}, "0.2": {"accuracy": 0.65625, "large_model_usage": 0.3515625, "small_model_usage": 0.6484375, "avg_lambda": 0.4300000000000041, "avg_cost": 0.00023539375, "unrestricted": {"accuracy": 0.6953125, "large_model_usage": 0.3515625, "avg_cost": 0.00024905000000000017}, "random_baseline": {"accuracy": 0.6424479166666667, "accuracy_std": 0.010865961481783896, "avg_cost": 0.0002330732291666667, "cost_std": 1.4842148801066064e-05, "small_model_fraction": 0.6511009403769038}, "unrestricted_random_baseline": {"accuracy": 0.6520833333333333, "accuracy_std": 0.011657827752916362, "avg_cost": 0.0002449935416666666, "cost_std": 9.06655587955181e-06, "small_model_fraction": 0.6276683439221691}}, "0.25": {"accuracy": 0.609375, "large_model_usage": 0.2760416666666667, "small_model_usage": 0.7239583333333333, "avg_lambda": 0.3100000000000015, "avg_cost": 0.00018524791666666663, "unrestricted": {"accuracy": 0.6666666666666666, "large_model_usage": 0.2760416666666667, "avg_cost": 0.00020240937499999999}, "random_baseline": {"accuracy": 0.61015625, "accuracy_std": 0.010089255535317976, "avg_cost": 0.00017254049479166665, "cost_std": 1.684527261104474e-05, "small_model_fraction": 0.737145577549361}, "unrestricted_random_baseline": {"accuracy": 0.62734375, "accuracy_std": 0.012404693087306826, "avg_cost": 0.00020189880208333326, "cost_std": 1.6547602783904377e-05, "small_model_fraction": 0.7076984359329042}}}}