{
  "hypothesis": "H1",
  "dataset": "JailbreakBench",
  "models": {
    "llama4scout": {
      "model_name": "llama4scout",
      "metrics": {
        "semantic_entropy": {
          "tau_0.1": {
            "metric_name": "SE_tau_0.1",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.1",
              "n_samples": 120,
              "n_unique_scores": 6,
              "unique_score_ratio": 0.05,
              "n_zeros": "71",
              "zero_proportion": 0.5916666666666667,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                1.9219280948873623
              ],
              "most_common_values": [
                [
                  0.0,
                  71,
                  0.5916666666666667
                ],
                [
                  0.7219280948873623,
                  22,
                  0.18333333333333332
                ],
                [
                  1.9219280948873623,
                  10,
                  0.08333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.6822094818819363,
                "benign_mean": 0.2663525871967489,
                "harmful_std": 0.6633929142843,
                "benign_std": 0.5593003131121181
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.05,
                  "zero_proportion": 0.5916666666666667,
                  "effective_discrimination": false
                }
              },
              "delong_valid": true,
              "statistical_warnings": [
                "MODERATE DEGENERACY: DeLong test assumptions may be violated"
              ]
            },
            "auroc": 0.685138888888889,
            "delong_ci": [
              0.5992380719204431,
              0.7710397058573348
            ],
            "delong_ci_valid": true,
            "delong_method": "MLstatkit",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution"
          },
          "tau_0.2": {
            "metric_name": "SE_tau_0.2",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.2",
              "n_samples": 120,
              "n_unique_scores": 5,
              "unique_score_ratio": 0.041666666666666664,
              "n_zeros": "92",
              "zero_proportion": 0.7666666666666667,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                1.9219280948873623
              ],
              "most_common_values": [
                [
                  0.0,
                  92,
                  0.7666666666666667
                ],
                [
                  0.7219280948873623,
                  19,
                  0.15833333333333333
                ],
                [
                  0.9709505944546686,
                  7,
                  0.058333333333333334
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.3486409045639191,
                "benign_mean": 0.04812853965915749,
                "harmful_std": 0.46002178073729433,
                "benign_std": 0.18008050593032918
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.041666666666666664,
                  "zero_proportion": 0.7666666666666667,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 5/120 unique scores"
              ]
            },
            "auroc": 0.6716666666666666,
            "delong_ci_valid": false,
            "delong_ci_error": "Distribution too degenerate for DeLong method",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution",
            "fnr": 0.85,
            "fnr_wilson_ci": [
              0.7388541093022145,
              0.9190255941983225
            ],
            "fnr_formatted": "0.850 [0.739, 0.919]"
          },
          "tau_0.3": {
            "metric_name": "SE_tau_0.3",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.3",
              "n_samples": 120,
              "n_unique_scores": 3,
              "unique_score_ratio": 0.025,
              "n_zeros": "103",
              "zero_proportion": 0.8583333333333333,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                0.9709505944546686
              ],
              "most_common_values": [
                [
                  0.0,
                  103,
                  0.8583333333333333
                ],
                [
                  0.7219280948873623,
                  14,
                  0.11666666666666667
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.20496528361499525,
                "benign_mean": 0.012032134914789373,
                "harmful_std": 0.3435823866705323,
                "benign_std": 0.09242058193851582
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.025,
                  "zero_proportion": 0.8583333333333333,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 3/120 unique scores",
                "HIGH ZERO CONCENTRATION: 85.8% of scores are exactly zero"
              ]
            },
            "auroc": 0.6254166666666666,
            "delong_ci_valid": false,
            "delong_ci_error": "Distribution too degenerate for DeLong method",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution",
            "fnr": 0.7333333333333333,
            "fnr_wilson_ci": [
              0.6099128690331636,
              0.8286735999671945
            ],
            "fnr_formatted": "0.733 [0.610, 0.829]"
          },
          "tau_0.4": {
            "metric_name": "SE_tau_0.4",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.4",
              "n_samples": 120,
              "n_unique_scores": 3,
              "unique_score_ratio": 0.025,
              "n_zeros": "110",
              "zero_proportion": 0.9166666666666666,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                0.9709505944546686
              ],
              "most_common_values": [
                [
                  0.0,
                  110,
                  0.9166666666666666
                ],
                [
                  0.7219280948873623,
                  8,
                  0.06666666666666667
                ],
                [
                  0.9709505944546686,
                  2,
                  0.016666666666666666
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.12862209913347059,
                "benign_mean": 0.0,
                "harmful_std": 0.29046838164463784,
                "benign_std": 0.0
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.025,
                  "zero_proportion": 0.9166666666666666,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 3/120 unique scores",
                "HIGH ZERO CONCENTRATION: 91.7% of scores are exactly zero"
              ]
            },
            "auroc": 0.5833333333333334,
            "delong_ci_valid": false,
            "delong_ci_error": "Distribution too degenerate for DeLong method",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution",
            "fnr": 0.8333333333333334,
            "fnr_wilson_ci": [
              0.7196838683638547,
              0.9068682302080855
            ],
            "fnr_formatted": "0.833 [0.720, 0.907]"
          }
        },
        "BERTScore": {
          "metric_name": "BERTScore",
          "distribution_analysis": {
            "metric_name": "BERTScore",
            "n_samples": 120,
            "n_unique_scores": 119,
            "unique_score_ratio": 0.9916666666666667,
            "n_zeros": "0",
            "zero_proportion": 0.0,
            "n_infinite": "0",
            "n_nan": "0",
            "score_range": [
              0.8550626635551453,
              1.0
            ],
            "most_common_values": [
              [
                1.0,
                2,
                0.016666666666666666
              ],
              [
                0.8774212598800659,
                1,
                0.008333333333333333
              ],
              [
                0.8977276682853699,
                1,
                0.008333333333333333
              ]
            ],
            "class_separation": {
              "harmful_mean": 0.9341231316328049,
              "benign_mean": 0.9019054690996806,
              "harmful_std": 0.03682057098558438,
              "benign_std": 0.023225074264305895
            },
            "is_degenerate": {
              "severe": "False",
              "moderate": "False",
              "mild": "False",
              "details": {
                "unique_score_ratio": 0.9916666666666667,
                "zero_proportion": 0.0,
                "effective_discrimination": "True"
              }
            },
            "delong_valid": true,
            "statistical_warnings": []
          },
          "auroc": 0.7672222222222222,
          "delong_ci": [
            0.6799285830454298,
            0.8545158613990147
          ],
          "delong_ci_valid": true,
          "delong_method": "MLstatkit",
          "bootstrap_ci": [
            NaN,
            NaN
          ],
          "bootstrap_ci_valid": true,
          "fnr": 0.6,
          "fnr_wilson_ci": [
            0.4736605349204075,
            0.7143050946511744
          ],
          "fnr_formatted": "0.600 [0.474, 0.714]"
        },
        "EmbeddingVariance": {
          "metric_name": "EmbeddingVariance",
          "distribution_analysis": {
            "metric_name": "EmbeddingVariance",
            "n_samples": 120,
            "n_unique_scores": 120,
            "unique_score_ratio": 1.0,
            "n_zeros": "0",
            "zero_proportion": 0.0,
            "n_infinite": "0",
            "n_nan": "0",
            "score_range": [
              1.6051951976826795e-16,
              0.13768619298934937
            ],
            "most_common_values": [
              [
                0.039791539311409,
                1,
                0.008333333333333333
              ],
              [
                0.006595076061785221,
                1,
                0.008333333333333333
              ],
              [
                0.030444130301475525,
                1,
                0.008333333333333333
              ]
            ],
            "class_separation": {
              "harmful_mean": 0.050028230525398044,
              "benign_mean": 0.025817701127380133,
              "harmful_std": 0.03899043709875208,
              "benign_std": 0.01946588307367237
            },
            "is_degenerate": {
              "severe": "False",
              "moderate": "False",
              "mild": "False",
              "details": {
                "unique_score_ratio": 1.0,
                "zero_proportion": 0.0,
                "effective_discrimination": "True"
              }
            },
            "delong_valid": true,
            "statistical_warnings": []
          },
          "auroc": 0.6536111111111111,
          "delong_ci": [
            0.5492777531588632,
            0.7579444690633591
          ],
          "delong_ci_valid": true,
          "delong_method": "MLstatkit",
          "bootstrap_ci": [
            NaN,
            NaN
          ],
          "bootstrap_ci_valid": true,
          "fnr": 0.6666666666666666,
          "fnr_wilson_ci": [
            0.5405686645211968,
            0.7727073847647731
          ],
          "fnr_formatted": "0.667 [0.541, 0.773]"
        },
        "LevenshteinVariance": {
          "metric_name": "LevenshteinVariance",
          "distribution_analysis": {
            "metric_name": "LevenshteinVariance",
            "n_samples": 120,
            "n_unique_scores": 118,
            "unique_score_ratio": 0.9833333333333333,
            "n_zeros": "3",
            "zero_proportion": 0.025,
            "n_infinite": "0",
            "n_nan": "0",
            "score_range": [
              0.0,
              3928112.16
            ],
            "most_common_values": [
              [
                0.0,
                3,
                0.025
              ],
              [
                76501.41,
                1,
                0.008333333333333333
              ],
              [
                23402.25,
                1,
                0.008333333333333333
              ]
            ],
            "class_separation": {
              "harmful_mean": 72934.05733333335,
              "benign_mean": 118133.1995,
              "harmful_std": 175353.4648079683,
              "benign_std": 503168.0269873976
            },
            "is_degenerate": {
              "severe": "False",
              "moderate": "False",
              "mild": "False",
              "details": {
                "unique_score_ratio": 0.9833333333333333,
                "zero_proportion": 0.025,
                "effective_discrimination": "True"
              }
            },
            "delong_valid": true,
            "statistical_warnings": []
          },
          "auroc": 0.2891666666666666,
          "delong_ci": [
            0.1905776759733993,
            0.38775565735993406
          ],
          "delong_ci_valid": true,
          "delong_method": "MLstatkit",
          "bootstrap_ci": [
            NaN,
            NaN
          ],
          "bootstrap_ci_valid": true,
          "fnr": 0.8833333333333333,
          "fnr_wilson_ci": [
            0.7782121197582914,
            0.9423227935994396
          ],
          "fnr_formatted": "0.883 [0.778, 0.942]"
        }
      },
      "paired_comparisons": {
        "SE_vs_BERTScore": {
          "metric1_name": "SE_tau_0.3",
          "metric2_name": "BERTScore",
          "distribution_analysis": {
            "metric1": {
              "metric_name": "SE_tau_0.3",
              "n_samples": 120,
              "n_unique_scores": 3,
              "unique_score_ratio": 0.025,
              "n_zeros": "103",
              "zero_proportion": 0.8583333333333333,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                0.9709505944546686
              ],
              "most_common_values": [
                [
                  0.0,
                  103,
                  0.8583333333333333
                ],
                [
                  0.7219280948873623,
                  14,
                  0.11666666666666667
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.20496528361499525,
                "benign_mean": 0.012032134914789373,
                "harmful_std": 0.3435823866705323,
                "benign_std": 0.09242058193851582
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.025,
                  "zero_proportion": 0.8583333333333333,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 3/120 unique scores",
                "HIGH ZERO CONCENTRATION: 85.8% of scores are exactly zero"
              ]
            },
            "metric2": {
              "metric_name": "BERTScore",
              "n_samples": 120,
              "n_unique_scores": 119,
              "unique_score_ratio": 0.9916666666666667,
              "n_zeros": "0",
              "zero_proportion": 0.0,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.8550626635551453,
                1.0
              ],
              "most_common_values": [
                [
                  1.0,
                  2,
                  0.016666666666666666
                ],
                [
                  0.8774212598800659,
                  1,
                  0.008333333333333333
                ],
                [
                  0.8977276682853699,
                  1,
                  0.008333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.9341231316328049,
                "benign_mean": 0.9019054690996806,
                "harmful_std": 0.03682057098558438,
                "benign_std": 0.023225074264305895
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": "False",
                "mild": "False",
                "details": {
                  "unique_score_ratio": 0.9916666666666667,
                  "zero_proportion": 0.0,
                  "effective_discrimination": "True"
                }
              },
              "delong_valid": true,
              "statistical_warnings": []
            }
          },
          "auroc1": 0.6254166666666666,
          "auroc2": 0.7672222222222222,
          "auroc_difference": 0.14180555555555563,
          "delong_test": {
            "valid": false,
            "reasons": [
              "SE_tau_0.3 distribution too degenerate"
            ]
          }
        },
        "SE_vs_EmbeddingVariance": {
          "metric1_name": "SE_tau_0.3",
          "metric2_name": "EmbeddingVariance",
          "distribution_analysis": {
            "metric1": {
              "metric_name": "SE_tau_0.3",
              "n_samples": 120,
              "n_unique_scores": 3,
              "unique_score_ratio": 0.025,
              "n_zeros": "103",
              "zero_proportion": 0.8583333333333333,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                0.9709505944546686
              ],
              "most_common_values": [
                [
                  0.0,
                  103,
                  0.8583333333333333
                ],
                [
                  0.7219280948873623,
                  14,
                  0.11666666666666667
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.20496528361499525,
                "benign_mean": 0.012032134914789373,
                "harmful_std": 0.3435823866705323,
                "benign_std": 0.09242058193851582
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.025,
                  "zero_proportion": 0.8583333333333333,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 3/120 unique scores",
                "HIGH ZERO CONCENTRATION: 85.8% of scores are exactly zero"
              ]
            },
            "metric2": {
              "metric_name": "EmbeddingVariance",
              "n_samples": 120,
              "n_unique_scores": 120,
              "unique_score_ratio": 1.0,
              "n_zeros": "0",
              "zero_proportion": 0.0,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                1.6051951976826795e-16,
                0.13768619298934937
              ],
              "most_common_values": [
                [
                  0.039791539311409,
                  1,
                  0.008333333333333333
                ],
                [
                  0.006595076061785221,
                  1,
                  0.008333333333333333
                ],
                [
                  0.030444130301475525,
                  1,
                  0.008333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.050028230525398044,
                "benign_mean": 0.025817701127380133,
                "harmful_std": 0.03899043709875208,
                "benign_std": 0.01946588307367237
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": "False",
                "mild": "False",
                "details": {
                  "unique_score_ratio": 1.0,
                  "zero_proportion": 0.0,
                  "effective_discrimination": "True"
                }
              },
              "delong_valid": true,
              "statistical_warnings": []
            }
          },
          "auroc1": 0.6254166666666666,
          "auroc2": 0.6536111111111111,
          "auroc_difference": 0.028194444444444522,
          "delong_test": {
            "valid": false,
            "reasons": [
              "SE_tau_0.3 distribution too degenerate"
            ]
          }
        },
        "SE_vs_LevenshteinVariance": {
          "metric1_name": "SE_tau_0.3",
          "metric2_name": "LevenshteinVariance",
          "distribution_analysis": {
            "metric1": {
              "metric_name": "SE_tau_0.3",
              "n_samples": 120,
              "n_unique_scores": 3,
              "unique_score_ratio": 0.025,
              "n_zeros": "103",
              "zero_proportion": 0.8583333333333333,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                0.9709505944546686
              ],
              "most_common_values": [
                [
                  0.0,
                  103,
                  0.8583333333333333
                ],
                [
                  0.7219280948873623,
                  14,
                  0.11666666666666667
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.20496528361499525,
                "benign_mean": 0.012032134914789373,
                "harmful_std": 0.3435823866705323,
                "benign_std": 0.09242058193851582
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.025,
                  "zero_proportion": 0.8583333333333333,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 3/120 unique scores",
                "HIGH ZERO CONCENTRATION: 85.8% of scores are exactly zero"
              ]
            },
            "metric2": {
              "metric_name": "LevenshteinVariance",
              "n_samples": 120,
              "n_unique_scores": 118,
              "unique_score_ratio": 0.9833333333333333,
              "n_zeros": "3",
              "zero_proportion": 0.025,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                3928112.16
              ],
              "most_common_values": [
                [
                  0.0,
                  3,
                  0.025
                ],
                [
                  76501.41,
                  1,
                  0.008333333333333333
                ],
                [
                  23402.25,
                  1,
                  0.008333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 72934.05733333335,
                "benign_mean": 118133.1995,
                "harmful_std": 175353.4648079683,
                "benign_std": 503168.0269873976
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": "False",
                "mild": "False",
                "details": {
                  "unique_score_ratio": 0.9833333333333333,
                  "zero_proportion": 0.025,
                  "effective_discrimination": "True"
                }
              },
              "delong_valid": true,
              "statistical_warnings": []
            }
          },
          "auroc1": 0.6254166666666666,
          "auroc2": 0.2891666666666666,
          "auroc_difference": -0.33625,
          "delong_test": {
            "valid": false,
            "reasons": [
              "SE_tau_0.3 distribution too degenerate"
            ]
          }
        }
      }
    },
    "qwen25": {
      "model_name": "qwen25",
      "metrics": {
        "semantic_entropy": {
          "tau_0.1": {
            "metric_name": "SE_tau_0.1",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.1",
              "n_samples": 120,
              "n_unique_scores": 7,
              "unique_score_ratio": 0.058333333333333334,
              "n_zeros": "50",
              "zero_proportion": 0.4166666666666667,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                2.321928094887362
              ],
              "most_common_values": [
                [
                  0.0,
                  50,
                  0.4166666666666667
                ],
                [
                  0.7219280948873623,
                  23,
                  0.19166666666666668
                ],
                [
                  1.9219280948873623,
                  12,
                  0.1
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.9889810591422613,
                "benign_mean": 0.5387921764226417,
                "harmful_std": 0.6536895774398096,
                "benign_std": 0.8113798511037924
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.058333333333333334,
                  "zero_proportion": 0.4166666666666667,
                  "effective_discrimination": false
                }
              },
              "delong_valid": true,
              "statistical_warnings": [
                "MODERATE DEGENERACY: DeLong test assumptions may be violated"
              ]
            },
            "auroc": 0.6901388888888889,
            "delong_ci": [
              0.5937596963175698,
              0.786518081460208
            ],
            "delong_ci_valid": true,
            "delong_method": "MLstatkit",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution"
          },
          "tau_0.2": {
            "metric_name": "SE_tau_0.2",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.2",
              "n_samples": 120,
              "n_unique_scores": 7,
              "unique_score_ratio": 0.058333333333333334,
              "n_zeros": "102",
              "zero_proportion": 0.85,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                2.321928094887362
              ],
              "most_common_values": [
                [
                  0.0,
                  102,
                  0.85
                ],
                [
                  0.7219280948873623,
                  11,
                  0.09166666666666666
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.1514712757077151,
                "benign_mean": 0.14837531939631404,
                "harmful_std": 0.33060107374824543,
                "benign_std": 0.4580173624953092
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.058333333333333334,
                  "zero_proportion": 0.85,
                  "effective_discrimination": false
                }
              },
              "delong_valid": true,
              "statistical_warnings": [
                "MODERATE DEGENERACY: DeLong test assumptions may be violated",
                "HIGH ZERO CONCENTRATION: 85.0% of scores are exactly zero"
              ]
            },
            "auroc": 0.5290277777777778,
            "delong_ci": [
              0.4644240999669153,
              0.5936314555886405
            ],
            "delong_ci_valid": true,
            "delong_method": "MLstatkit",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution",
            "fnr": 0.9833333333333333,
            "fnr_wilson_ci": [
              0.9114487027240993,
              0.9970518402052136
            ],
            "fnr_formatted": "0.983 [0.911, 0.997]"
          },
          "tau_0.3": {
            "metric_name": "SE_tau_0.3",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.3",
              "n_samples": 120,
              "n_unique_scores": 2,
              "unique_score_ratio": 0.016666666666666666,
              "n_zeros": "116",
              "zero_proportion": 0.9666666666666667,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                0.9709505944546686
              ],
              "most_common_values": [
                [
                  0.0,
                  116,
                  0.9666666666666667
                ],
                [
                  0.9709505944546686,
                  4,
                  0.03333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.01618250990757781,
                "benign_mean": 0.04854752972273343,
                "harmful_std": 0.12430021716643293,
                "benign_std": 0.2116137760199322
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.016666666666666666,
                  "zero_proportion": 0.9666666666666667,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 2/120 unique scores",
                "HIGH ZERO CONCENTRATION: 96.7% of scores are exactly zero"
              ]
            },
            "auroc": 0.4833333333333333,
            "delong_ci_valid": false,
            "delong_ci_error": "Distribution too degenerate for DeLong method",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution",
            "fnr": 0.9833333333333333,
            "fnr_wilson_ci": [
              0.9114487027240993,
              0.9970518402052136
            ],
            "fnr_formatted": "0.983 [0.911, 0.997]"
          },
          "tau_0.4": {
            "metric_name": "SE_tau_0.4",
            "distribution_analysis": {
              "metric_name": "SE_tau_0.4",
              "n_samples": 120,
              "n_unique_scores": 1,
              "unique_score_ratio": 0.008333333333333333,
              "n_zeros": "120",
              "zero_proportion": 1.0,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                0.0
              ],
              "most_common_values": [
                [
                  0.0,
                  120,
                  1.0
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.0,
                "benign_mean": 0.0,
                "harmful_std": 0.0,
                "benign_std": 0.0
              },
              "is_degenerate": {
                "severe": true,
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.008333333333333333,
                  "zero_proportion": 1.0,
                  "effective_discrimination": false
                }
              },
              "delong_valid": false,
              "statistical_warnings": [
                "SEVERE DEGENERACY: Distribution unsuitable for DeLong AUROC confidence intervals",
                "Only 1/120 unique scores",
                "HIGH ZERO CONCENTRATION: 100.0% of scores are exactly zero"
              ]
            },
            "auroc": 0.5,
            "delong_ci_valid": false,
            "delong_ci_error": "Distribution too degenerate for DeLong method",
            "bootstrap_ci": [
              NaN,
              NaN
            ],
            "bootstrap_ci_valid": true,
            "bootstrap_warning": "Bootstrap CI may be unreliable due to degenerate distribution"
          }
        },
        "BERTScore": {
          "metric_name": "BERTScore",
          "distribution_analysis": {
            "metric_name": "BERTScore",
            "n_samples": 120,
            "n_unique_scores": 120,
            "unique_score_ratio": 1.0,
            "n_zeros": "0",
            "zero_proportion": 0.0,
            "n_infinite": "0",
            "n_nan": "0",
            "score_range": [
              0.8301523327827454,
              0.9510933756828308
            ],
            "most_common_values": [
              [
                0.9252229928970337,
                1,
                0.008333333333333333
              ],
              [
                0.9051238894462585,
                1,
                0.008333333333333333
              ],
              [
                0.8570109605789185,
                1,
                0.008333333333333333
              ]
            ],
            "class_separation": {
              "harmful_mean": 0.8914870947599411,
              "benign_mean": 0.8831479062636693,
              "harmful_std": 0.020067755724831906,
              "benign_std": 0.019615868369943636
            },
            "is_degenerate": {
              "severe": "False",
              "moderate": "False",
              "mild": "False",
              "details": {
                "unique_score_ratio": 1.0,
                "zero_proportion": 0.0,
                "effective_discrimination": "True"
              }
            },
            "delong_valid": true,
            "statistical_warnings": []
          },
          "auroc": 0.615,
          "delong_ci": [
            0.5139625699477964,
            0.716037430052204
          ],
          "delong_ci_valid": true,
          "delong_method": "MLstatkit",
          "bootstrap_ci": [
            NaN,
            NaN
          ],
          "bootstrap_ci_valid": true,
          "fnr": 0.8666666666666667,
          "fnr_wilson_ci": [
            0.7583484032350039,
            0.9308589051941303
          ],
          "fnr_formatted": "0.867 [0.758, 0.931]"
        },
        "EmbeddingVariance": {
          "metric_name": "EmbeddingVariance",
          "distribution_analysis": {
            "metric_name": "EmbeddingVariance",
            "n_samples": 120,
            "n_unique_scores": 120,
            "unique_score_ratio": 1.0,
            "n_zeros": "0",
            "zero_proportion": 0.0,
            "n_infinite": "0",
            "n_nan": "0",
            "score_range": [
              0.00738135352730751,
              0.1524171233177185
            ],
            "most_common_values": [
              [
                0.033994417637586594,
                1,
                0.008333333333333333
              ],
              [
                0.009308574721217155,
                1,
                0.008333333333333333
              ],
              [
                0.040656767785549164,
                1,
                0.008333333333333333
              ]
            ],
            "class_separation": {
              "harmful_mean": 0.05071117606324454,
              "benign_mean": 0.037843278034900625,
              "harmful_std": 0.021019760002761234,
              "benign_std": 0.03125346554359996
            },
            "is_degenerate": {
              "severe": "False",
              "moderate": "False",
              "mild": "False",
              "details": {
                "unique_score_ratio": 1.0,
                "zero_proportion": 0.0,
                "effective_discrimination": "True"
              }
            },
            "delong_valid": true,
            "statistical_warnings": []
          },
          "auroc": 0.7205555555555556,
          "delong_ci": [
            0.6247134953110518,
            0.8163976158000594
          ],
          "delong_ci_valid": true,
          "delong_method": "MLstatkit",
          "bootstrap_ci": [
            NaN,
            NaN
          ],
          "bootstrap_ci_valid": true,
          "fnr": 0.9666666666666667,
          "fnr_wilson_ci": [
            0.886362257256914,
            0.9908106807438021
          ],
          "fnr_formatted": "0.967 [0.886, 0.991]"
        },
        "LevenshteinVariance": {
          "metric_name": "LevenshteinVariance",
          "distribution_analysis": {
            "metric_name": "LevenshteinVariance",
            "n_samples": 120,
            "n_unique_scores": 120,
            "unique_score_ratio": 1.0,
            "n_zeros": "0",
            "zero_proportion": 0.0,
            "n_infinite": "0",
            "n_nan": "0",
            "score_range": [
              662.21,
              1897289.44
            ],
            "most_common_values": [
              [
                4910.01,
                1,
                0.008333333333333333
              ],
              [
                11272.89,
                1,
                0.008333333333333333
              ],
              [
                51571.89,
                1,
                0.008333333333333333
              ]
            ],
            "class_separation": {
              "harmful_mean": 155062.19700000004,
              "benign_mean": 92086.1705,
              "harmful_std": 238264.1354793874,
              "benign_std": 255303.78281650477
            },
            "is_degenerate": {
              "severe": "False",
              "moderate": "False",
              "mild": "False",
              "details": {
                "unique_score_ratio": 1.0,
                "zero_proportion": 0.0,
                "effective_discrimination": "True"
              }
            },
            "delong_valid": true,
            "statistical_warnings": []
          },
          "auroc": 0.6013888888888889,
          "delong_ci": [
            0.49848269967521974,
            0.7042950781025578
          ],
          "delong_ci_valid": true,
          "delong_method": "MLstatkit",
          "bootstrap_ci": [
            NaN,
            NaN
          ],
          "bootstrap_ci_valid": true,
          "fnr": 0.7666666666666667,
          "fnr_wilson_ci": [
            0.6456372962239805,
            0.8556043826335717
          ],
          "fnr_formatted": "0.767 [0.646, 0.856]"
        }
      },
      "paired_comparisons": {
        "SE_vs_BERTScore": {
          "metric1_name": "SE_tau_0.2",
          "metric2_name": "BERTScore",
          "distribution_analysis": {
            "metric1": {
              "metric_name": "SE_tau_0.2",
              "n_samples": 120,
              "n_unique_scores": 7,
              "unique_score_ratio": 0.058333333333333334,
              "n_zeros": "102",
              "zero_proportion": 0.85,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                2.321928094887362
              ],
              "most_common_values": [
                [
                  0.0,
                  102,
                  0.85
                ],
                [
                  0.7219280948873623,
                  11,
                  0.09166666666666666
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.1514712757077151,
                "benign_mean": 0.14837531939631404,
                "harmful_std": 0.33060107374824543,
                "benign_std": 0.4580173624953092
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.058333333333333334,
                  "zero_proportion": 0.85,
                  "effective_discrimination": false
                }
              },
              "delong_valid": true,
              "statistical_warnings": [
                "MODERATE DEGENERACY: DeLong test assumptions may be violated",
                "HIGH ZERO CONCENTRATION: 85.0% of scores are exactly zero"
              ]
            },
            "metric2": {
              "metric_name": "BERTScore",
              "n_samples": 120,
              "n_unique_scores": 120,
              "unique_score_ratio": 1.0,
              "n_zeros": "0",
              "zero_proportion": 0.0,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.8301523327827454,
                0.9510933756828308
              ],
              "most_common_values": [
                [
                  0.9252229928970337,
                  1,
                  0.008333333333333333
                ],
                [
                  0.9051238894462585,
                  1,
                  0.008333333333333333
                ],
                [
                  0.8570109605789185,
                  1,
                  0.008333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.8914870947599411,
                "benign_mean": 0.8831479062636693,
                "harmful_std": 0.020067755724831906,
                "benign_std": 0.019615868369943636
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": "False",
                "mild": "False",
                "details": {
                  "unique_score_ratio": 1.0,
                  "zero_proportion": 0.0,
                  "effective_discrimination": "True"
                }
              },
              "delong_valid": true,
              "statistical_warnings": []
            }
          },
          "auroc1": 0.5290277777777778,
          "auroc2": 0.615,
          "auroc_difference": 0.08597222222222223,
          "delong_test": {
            "valid": false,
            "error": "name 'delong_result' is not defined"
          }
        },
        "SE_vs_EmbeddingVariance": {
          "metric1_name": "SE_tau_0.2",
          "metric2_name": "EmbeddingVariance",
          "distribution_analysis": {
            "metric1": {
              "metric_name": "SE_tau_0.2",
              "n_samples": 120,
              "n_unique_scores": 7,
              "unique_score_ratio": 0.058333333333333334,
              "n_zeros": "102",
              "zero_proportion": 0.85,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                2.321928094887362
              ],
              "most_common_values": [
                [
                  0.0,
                  102,
                  0.85
                ],
                [
                  0.7219280948873623,
                  11,
                  0.09166666666666666
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.1514712757077151,
                "benign_mean": 0.14837531939631404,
                "harmful_std": 0.33060107374824543,
                "benign_std": 0.4580173624953092
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.058333333333333334,
                  "zero_proportion": 0.85,
                  "effective_discrimination": false
                }
              },
              "delong_valid": true,
              "statistical_warnings": [
                "MODERATE DEGENERACY: DeLong test assumptions may be violated",
                "HIGH ZERO CONCENTRATION: 85.0% of scores are exactly zero"
              ]
            },
            "metric2": {
              "metric_name": "EmbeddingVariance",
              "n_samples": 120,
              "n_unique_scores": 120,
              "unique_score_ratio": 1.0,
              "n_zeros": "0",
              "zero_proportion": 0.0,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.00738135352730751,
                0.1524171233177185
              ],
              "most_common_values": [
                [
                  0.033994417637586594,
                  1,
                  0.008333333333333333
                ],
                [
                  0.009308574721217155,
                  1,
                  0.008333333333333333
                ],
                [
                  0.040656767785549164,
                  1,
                  0.008333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.05071117606324454,
                "benign_mean": 0.037843278034900625,
                "harmful_std": 0.021019760002761234,
                "benign_std": 0.03125346554359996
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": "False",
                "mild": "False",
                "details": {
                  "unique_score_ratio": 1.0,
                  "zero_proportion": 0.0,
                  "effective_discrimination": "True"
                }
              },
              "delong_valid": true,
              "statistical_warnings": []
            }
          },
          "auroc1": 0.5290277777777778,
          "auroc2": 0.7205555555555556,
          "auroc_difference": 0.19152777777777785,
          "delong_test": {
            "valid": false,
            "error": "name 'delong_result' is not defined"
          }
        },
        "SE_vs_LevenshteinVariance": {
          "metric1_name": "SE_tau_0.2",
          "metric2_name": "LevenshteinVariance",
          "distribution_analysis": {
            "metric1": {
              "metric_name": "SE_tau_0.2",
              "n_samples": 120,
              "n_unique_scores": 7,
              "unique_score_ratio": 0.058333333333333334,
              "n_zeros": "102",
              "zero_proportion": 0.85,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                0.0,
                2.321928094887362
              ],
              "most_common_values": [
                [
                  0.0,
                  102,
                  0.85
                ],
                [
                  0.7219280948873623,
                  11,
                  0.09166666666666666
                ],
                [
                  0.9709505944546686,
                  3,
                  0.025
                ]
              ],
              "class_separation": {
                "harmful_mean": 0.1514712757077151,
                "benign_mean": 0.14837531939631404,
                "harmful_std": 0.33060107374824543,
                "benign_std": 0.4580173624953092
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": true,
                "mild": true,
                "details": {
                  "unique_score_ratio": 0.058333333333333334,
                  "zero_proportion": 0.85,
                  "effective_discrimination": false
                }
              },
              "delong_valid": true,
              "statistical_warnings": [
                "MODERATE DEGENERACY: DeLong test assumptions may be violated",
                "HIGH ZERO CONCENTRATION: 85.0% of scores are exactly zero"
              ]
            },
            "metric2": {
              "metric_name": "LevenshteinVariance",
              "n_samples": 120,
              "n_unique_scores": 120,
              "unique_score_ratio": 1.0,
              "n_zeros": "0",
              "zero_proportion": 0.0,
              "n_infinite": "0",
              "n_nan": "0",
              "score_range": [
                662.21,
                1897289.44
              ],
              "most_common_values": [
                [
                  4910.01,
                  1,
                  0.008333333333333333
                ],
                [
                  11272.89,
                  1,
                  0.008333333333333333
                ],
                [
                  51571.89,
                  1,
                  0.008333333333333333
                ]
              ],
              "class_separation": {
                "harmful_mean": 155062.19700000004,
                "benign_mean": 92086.1705,
                "harmful_std": 238264.1354793874,
                "benign_std": 255303.78281650477
              },
              "is_degenerate": {
                "severe": "False",
                "moderate": "False",
                "mild": "False",
                "details": {
                  "unique_score_ratio": 1.0,
                  "zero_proportion": 0.0,
                  "effective_discrimination": "True"
                }
              },
              "delong_valid": true,
              "statistical_warnings": []
            }
          },
          "auroc1": 0.5290277777777778,
          "auroc2": 0.6013888888888889,
          "auroc_difference": 0.0723611111111111,
          "delong_test": {
            "valid": false,
            "error": "name 'delong_result' is not defined"
          }
        }
      }
    }
  }
}