{"trial": 29, "trial_seed": 70, "subject": "TruthfulQA", "method": "standard", "calibration_size": 300, "test_size": 384, "small_model_accuracy": 0.5760233918128655, "large_model_accuracy": 0.8391812865497076, "small_model_cost": 3.2075000000000034e-05, "large_model_cost": 0.0006160730994152059, "hybrid_results": {"0.05": {"accuracy": 0.8046875, "large_model_usage": 0.8255208333333334, "small_model_usage": 0.17447916666666663, "avg_lambda": 0.8999999999999971, "avg_cost": 0.0005435916666666665, "unrestricted": {"accuracy": 0.8046875, "large_model_usage": 0.8255208333333334, "avg_cost": 0.0005435916666666665}, "random_baseline": {"accuracy": 0.7906250000000001, "accuracy_std": 0.010875319280115169, "avg_cost": 0.0005463092708333334, "cost_std": 1.2328831272346662e-05, "small_model_fraction": 0.1241124462924102}, "unrestricted_random_baseline": {"accuracy": 0.79296875, "accuracy_std": 0.006715519249076891, "avg_cost": 0.0005432308333333332, "cost_std": 6.218493089725731e-06, "small_model_fraction": 0.1241124462924102}}, "0.1": {"accuracy": 0.7890625, "large_model_usage": 0.6692708333333334, "small_model_usage": 0.33072916666666663, "avg_lambda": 0.779999999999997, "avg_cost": 0.00044563333333333307, "unrestricted": {"accuracy": 0.7890625, "large_model_usage": 0.6692708333333334, "avg_cost": 0.0004473833333333329}, "random_baseline": {"accuracy": 0.74921875, "accuracy_std": 0.013683650682728796, "avg_cost": 0.00044269395833333307, "cost_std": 1.565568919522607e-05, "small_model_fraction": 0.2918498643275464}, "unrestricted_random_baseline": {"accuracy": 0.7479166666666667, "accuracy_std": 0.007529600153542177, "avg_cost": 0.000446820520833333, "cost_std": 9.823580587153644e-06, "small_model_fraction": 0.2888532792329164}}, "0.15": {"accuracy": 0.7473958333333334, "large_model_usage": 0.5026041666666666, "small_model_usage": 0.49739583333333337, "avg_lambda": 0.610000000000006, "avg_cost": 0.00033506041666666654, "unrestricted": {"accuracy": 0.7552083333333334, "large_model_usage": 0.5026041666666666, "avg_cost": 0.000344414583333333}, "random_baseline": {"accuracy": 0.7067708333333333, "accuracy_std": 0.013491493590613144, "avg_cost": 0.0003246267447916665, "cost_std": 1.4535628319009532e-05, "small_model_fraction": 0.48118766658647527}, "unrestricted_random_baseline": {"accuracy": 0.7028645833333333, "accuracy_std": 0.018831204364365545, "avg_cost": 0.0003391020572916665, "cost_std": 1.6816053712288306e-05, "small_model_fraction": 0.46517020578303536}}, "0.2": {"accuracy": 0.6979166666666666, "large_model_usage": 0.3645833333333333, "small_model_usage": 0.6354166666666667, "avg_lambda": 0.40000000000000285, "avg_cost": 0.00024559166666666656, "unrestricted": {"accuracy": 0.7317708333333334, "large_model_usage": 0.3645833333333333, "avg_cost": 0.0002580187499999998}, "random_baseline": {"accuracy": 0.66640625, "accuracy_std": 0.01418972158940133, "avg_cost": 0.0002463576041666665, "cost_std": 1.5489008054790847e-05, "small_model_fraction": 0.6343880795494468}, "unrestricted_random_baseline": {"accuracy": 0.6677083333333333, "accuracy_std": 0.009895833333333314, "avg_cost": 0.00025035109374999984, "cost_std": 7.435960730618759e-06, "small_model_fraction": 0.6131087580143642}}, "0.25": {"accuracy": 0.6692708333333334, "large_model_usage": 0.2994791666666667, "small_model_usage": 0.7005208333333333, "avg_lambda": 0.3100000000000015, "avg_cost": 0.00020026354166666663, "unrestricted": {"accuracy": 0.71875, "large_model_usage": 0.2994791666666667, "avg_cost": 0.00021692499999999995}, "random_baseline": {"accuracy": 0.6505208333333334, "accuracy_std": 0.011158481919598198, "avg_cost": 0.00019860294270833325, "cost_std": 1.321265809534032e-05, "small_model_fraction": 0.7120049845451819}, "unrestricted_random_baseline": {"accuracy": 0.6528645833333333, "accuracy_std": 0.012217400110145734, "avg_cost": 0.00022239289062499982, "cost_std": 1.244120885453574e-05, "small_model_fraction": 0.6834749972900563}}}}