{"trial": 15, "trial_seed": 56, "subject": "TruthfulQA", "method": "standard", "calibration_size": 300, "test_size": 384, "small_model_accuracy": 0.5570175438596491, "large_model_accuracy": 0.8333333333333334, "small_model_cost": 3.199035087719302e-05, "large_model_cost": 0.00061342105263158, "hybrid_results": {"0.05": {"accuracy": 0.7604166666666666, "large_model_usage": 0.71875, "small_model_usage": 0.28125, "avg_lambda": 0.8000000000000057, "avg_cost": 0.00047040781250000055, "unrestricted": {"accuracy": 0.7760416666666666, "large_model_usage": 0.71875, "avg_cost": 0.0004755380208333339}, "random_baseline": {"accuracy": 0.7421874999999999, "accuracy_std": 0.013278696649981199, "avg_cost": 0.0004689535677083333, "cost_std": 1.281902565496072e-05, "small_model_fraction": 0.24596781645698576}, "unrestricted_random_baseline": {"accuracy": 0.7502604166666667, "accuracy_std": 0.014934844748895466, "avg_cost": 0.0004806095312499999, "cost_std": 1.1892502741185668e-05, "small_model_fraction": 0.2371443946496171}}, "0.1": {"accuracy": 0.6640625, "large_model_usage": 0.4635416666666667, "small_model_usage": 0.5364583333333333, "avg_lambda": 0.5999999999999962, "avg_cost": 0.00030752239583333314, "unrestricted": {"accuracy": 0.6979166666666666, "large_model_usage": 0.4635416666666667, "avg_cost": 0.0003180276041666666}, "random_baseline": {"accuracy": 0.6591145833333333, "accuracy_std": 0.012834605760782915, "avg_cost": 0.0003129500260416666, "cost_std": 1.2846075087267123e-05, "small_model_fraction": 0.5261136982881018}, "unrestricted_random_baseline": {"accuracy": 0.6544270833333334, "accuracy_std": 0.014641346663406865, "avg_cost": 0.00031374023437499984, "cost_std": 9.739068157226343e-06, "small_model_fraction": 0.5080458386074289}}, "0.15": {"accuracy": 0.6015625, "large_model_usage": 0.3411458333333333, "small_model_usage": 0.6588541666666667, "avg_lambda": 0.4300000000000041, "avg_cost": 0.00022737656249999995, "unrestricted": {"accuracy": 0.6380208333333334, "large_model_usage": 0.3411458333333333, "avg_cost": 0.00024203281249999991}, "random_baseline": {"accuracy": 0.6091145833333333, "accuracy_std": 0.016611644201892768, "avg_cost": 0.0002262993489583332, "cost_std": 1.868905827665631e-05, "small_model_fraction": 0.6639561498330653}, "unrestricted_random_baseline": {"accuracy": 0.6169270833333333, "accuracy_std": 0.015025387225782985, "avg_cost": 0.0002378403385416665, "cost_std": 1.2077669675194819e-05, "small_model_fraction": 0.6387489326087654}}, "0.2": {"accuracy": 0.5755208333333334, "large_model_usage": 0.2708333333333333, "small_model_usage": 0.7291666666666667, "avg_lambda": 0.3100000000000015, "avg_cost": 0.00018130364583333327, "unrestricted": {"accuracy": 0.6197916666666666, "large_model_usage": 0.2708333333333333, "avg_cost": 0.0001984546874999999}, "random_baseline": {"accuracy": 0.5802083333333333, "accuracy_std": 0.010468620438667586, "avg_cost": 0.0001851717447916666, "cost_std": 1.2560250526434997e-05, "small_model_fraction": 0.7431967481152819}, "unrestricted_random_baseline": {"accuracy": 0.590625, "accuracy_std": 0.014158622103196024, "avg_cost": 0.0001980295312499999, "cost_std": 9.316964513613788e-06, "small_model_fraction": 0.7136987501338962}}, "0.25": {"accuracy": 0.4947916666666667, "large_model_usage": 0.041666666666666664, "small_model_usage": 0.9583333333333334, "avg_lambda": 0.0, "avg_cost": 5.301197916666666e-05, "unrestricted": {"accuracy": 0.5104166666666666, "large_model_usage": 0.041666666666666664, "avg_cost": 5.763697916666666e-05}, "random_baseline": {"accuracy": 0.5046875, "accuracy_std": 0.0063575810498613106, "avg_cost": 5.599716145833335e-05, "cost_std": 7.5758453181283355e-06, "small_model_fraction": 0.9638449978199574}, "unrestricted_random_baseline": {"accuracy": 0.5093750000000001, "accuracy_std": 0.004830009633070667, "avg_cost": 5.936177083333338e-05, "cost_std": 6.025579378740371e-06, "small_model_fraction": 0.95589048151037}}}}