MathCheck Full 129-Group Experiment
====================================
Total groups: 129
Bad paraphrases flagged by FormInv unanimity: 4
Error rate: 4/129 = 3.1%

FormInv rule: canon_pass >= 3/4 AND pu_fail >= 3/4
Flagged groups: 25, 27, 75, 82

Model Rankings WITH bad paraphrases:
  1. claude-sonnet-4-6                   SCR=95.3%
  2. gpt-4o                              SCR=94.6%
  3. claude-haiku-4-5                    SCR=93.8%
  4. deepseek-chat                       SCR=93.0%

Model Rankings WITHOUT bad paraphrases:
  1. claude-sonnet-4-6                   SCR=98.4%
  2. claude-haiku-4-5                    SCR=96.8%
  3. deepseek-chat                       SCR=96.0%
  4. gpt-4o                              SCR=95.2%

Ranking changes:
  Full reversals (2):
  gpt-4o vs claude-haiku-4-5: WITH 94.6%/93.8% (+0.8%), WITHOUT 95.2%/96.8% (-1.6%)
  gpt-4o vs deepseek-chat: WITH 94.6%/93.0% (+1.6%), WITHOUT 95.2%/96.0% (-0.8%)
  Tie-collapses: none
  No change (4):
  claude-sonnet-4-6 vs gpt-4o: WITH 95.3%/94.6% (+0.8%), WITHOUT 98.4%/95.2% (+3.2%)
  claude-sonnet-4-6 vs claude-haiku-4-5: WITH 95.3%/93.8% (+1.6%), WITHOUT 98.4%/96.8% (+1.6%)
  claude-sonnet-4-6 vs deepseek-chat: WITH 95.3%/93.0% (+2.3%), WITHOUT 98.4%/96.0% (+2.4%)
  claude-haiku-4-5 vs deepseek-chat: WITH 93.8%/93.0% (+0.8%), WITHOUT 96.8%/96.0% (+0.8%)

CONCLUSION: Does removing bad paraphrases cause any full model ranking reversal? YES

Pre-specified group audit:
  Group 25: FLAGGED
  Group 26: not flagged
  Group 27: FLAGGED
  Group 38: not flagged

Full SCR Metrics Table:
Model                                      Acc(canon)    Acc(PU)   SCR(all)   SCR(clean)
----------------------------------------------------------------------------------------
anthropic/claude-haiku-4-5                     98.4%      93.8%      93.8%        96.8%
anthropic/claude-sonnet-4-6                   100.0%      95.3%      95.3%        98.4%
openai/gpt-4o                                  96.9%      97.7%      94.6%        95.2%
deepseek/deepseek-chat                         96.9%      95.3%      93.0%        96.0%

--- Per-group detail ---

Per-Group Results (C=canonical correct, P=PU correct; T=pass F=fail)

 Grp    ExpAns  C/5  C/6  C/4o  C/chat  Flag
------------------------------------------------------
   0      18.0  T/T  T/T  T/T  T/T
   1       3.0  T/T  T/T  T/T  T/T
   2     540.0  T/T  T/T  T/T  T/T
   3     260.0  T/T  T/T  T/T  T/T
   4      18.0  T/T  T/T  T/T  T/T
   5     125.0  T/T  T/T  T/T  T/T
   6   70000.0  T/T  T/T  F/T  T/T
   7     160.0  T/T  T/T  T/T  T/T
   8     694.0  T/T  T/T  T/T  T/T
   9      64.0  T/T  T/T  T/F  T/T
  10     366.0  T/T  T/T  T/T  T/T
  11      60.0  T/T  T/T  T/T  T/T
  12      70.0  T/T  T/T  T/T  T/T
  13     800.0  T/T  T/T  T/T  T/T
  14    1596.0  T/T  T/T  T/T  T/T
  15      45.0  T/T  T/T  T/T  F/T
  16      18.0  T/T  T/T  T/T  T/T
  17      88.0  T/T  T/T  T/T  T/T
  18     360.0  T/T  T/T  T/T  T/T
  19      20.0  T/T  T/T  T/T  T/T
  20      14.0  T/T  T/T  T/T  T/T
  21       8.0  T/T  T/T  T/T  T/T
  22     243.0  T/T  T/T  T/T  T/T
  23      16.0  T/T  T/T  T/T  T/T
  24      25.0  T/T  T/T  T/T  T/T
  25      35.0  T/F  T/F  T/F  T/F  <- FORMINV_FLAGGED
  26       8.0  T/T  T/T  T/T  F/T
  27     200.0  T/F  T/F  T/T  T/F  <- FORMINV_FLAGGED
  28      26.0  T/T  T/T  T/T  T/T
  29       8.0  T/T  T/T  T/T  T/T
  30      14.0  T/T  T/T  T/T  T/T
  31       3.0  T/T  T/T  T/T  T/T
  32      83.0  T/T  T/T  T/T  T/T
  33     187.0  T/T  T/T  T/T  T/T
  34     300.0  T/T  T/T  T/T  T/T
  35      60.0  T/T  T/T  T/T  T/T
  36      60.0  T/T  T/T  T/T  T/T
  37      70.0  T/T  T/T  T/T  T/T
  38     623.0  T/F  T/T  T/T  T/T
  39     600.0  T/T  T/T  T/T  T/T
  40      24.0  T/F  T/T  F/T  T/T
  41       3.0  T/T  T/T  T/T  T/T
  42       5.0  T/T  T/T  T/T  T/T
  43     140.0  T/T  T/T  T/T  T/T
  44      20.0  T/T  T/T  T/T  T/T
  45      24.0  T/T  T/T  T/T  T/T
  46      25.0  T/T  T/T  T/T  T/T
  47       6.0  T/T  T/T  F/T  T/T
  48       7.0  T/T  T/T  T/T  T/T
  49       7.0  T/T  T/T  T/T  T/T
  50      26.0  T/T  T/T  T/T  T/T
  51     104.0  T/T  T/T  T/T  T/T
  52     109.0  T/T  T/T  T/T  T/T
  53      23.0  T/T  T/T  T/T  T/T
  54       9.0  T/T  T/T  T/T  T/T
  55      75.0  T/T  T/T  T/T  T/T
  56      30.0  T/T  T/T  T/T  T/T
  57     294.0  T/T  T/T  T/T  T/T
  58       5.0  T/T  T/T  T/T  T/T
  59      15.0  T/T  T/T  T/T  T/T
  60      40.0  T/T  T/T  T/T  T/T
  61      40.0  T/T  T/T  T/T  T/T
  62      57.0  T/T  T/T  T/T  T/T
  63      17.0  T/T  T/T  T/T  T/T
  64    1430.0  T/T  T/T  T/T  T/T
  65   25000.0  T/F  T/T  T/T  T/F
  66     595.0  T/T  T/T  T/T  T/T
  67      36.0  T/T  T/T  T/T  T/T
  68     221.0  T/T  T/T  T/T  T/T
  69     100.0  T/T  T/T  T/T  T/T
  70      17.0  T/T  T/T  T/T  T/T
  71      44.0  T/T  T/T  T/T  T/T
  72      22.0  T/T  T/T  T/T  T/T
  73      28.0  T/T  T/T  T/T  T/T
  74       4.0  T/T  T/T  T/T  T/T
  75      36.0  T/F  T/F  T/T  F/F  <- FORMINV_FLAGGED
  76      12.0  T/T  T/T  T/T  T/T
  77       6.0  T/T  T/T  T/T  T/T
  78      26.0  T/T  T/T  T/T  T/T
  79      50.0  T/T  T/T  T/T  T/T
  80      28.0  T/T  T/T  T/T  T/T
  81       4.0  T/T  T/T  T/T  T/T
  82      12.0  F/F  T/F  T/T  T/F  <- FORMINV_FLAGGED
  83     230.0  T/T  T/T  T/T  T/T
  84   57500.0  T/T  T/T  T/T  T/T
  85       6.0  T/T  T/T  T/T  T/T
  86      15.0  T/T  T/T  T/T  T/T
  87      80.0  T/T  T/T  T/T  T/T
  88       2.0  F/F  T/F  T/T  T/T
  89      48.0  T/T  T/T  T/T  T/T
  90      20.0  T/T  T/T  T/T  T/T
  91     163.0  T/T  T/T  T/T  T/T
  92      36.0  T/T  T/T  T/F  T/T
  93    7425.0  T/T  T/T  T/T  T/T
  94     255.0  T/T  T/T  T/T  T/T
  95      10.0  T/T  T/T  T/T  T/T
  96    9360.0  T/T  T/T  F/T  T/T
  97    8000.0  T/T  T/T  T/T  T/T
  98     225.0  T/T  T/T  T/T  T/T
  99     348.0  T/T  T/T  T/T  T/T
 100      40.0  T/T  T/T  T/T  T/T
 101      58.0  T/T  T/T  T/T  T/T
 102     500.0  T/T  T/T  T/T  T/T
 103      45.0  T/T  T/T  T/T  T/T
 104      16.0  T/T  T/T  T/T  T/T
 105      50.0  T/T  T/T  T/T  T/T
 106   10000.0  T/T  T/T  T/T  T/T
 107      60.0  T/T  T/T  T/T  T/T
 108     460.0  T/T  T/T  T/T  T/T
 109       2.0  T/T  T/T  T/T  T/T
 110      10.0  T/T  T/T  T/T  T/T
 111     104.0  T/T  T/T  T/T  T/T
 112      48.0  T/T  T/T  T/T  T/T
 113      60.0  T/T  T/T  T/T  T/T
 114       5.0  T/T  T/T  T/T  T/T
 115       6.0  T/T  T/T  T/T  T/T
 116      90.0  T/T  T/T  T/T  T/T
 117      48.0  T/T  T/T  T/T  T/F
 118     105.0  T/T  T/T  T/T  T/T
 119       4.0  T/T  T/T  T/T  T/T
 120       5.0  T/T  T/T  T/T  T/T
 121      48.0  T/T  T/T  T/T  T/T
 122      15.0  T/T  T/T  T/T  T/T
 123     175.0  T/T  T/T  T/T  F/T
 124      72.0  T/T  T/T  T/T  T/T
 125     880.0  T/T  T/T  T/T  T/T
 126      29.0  T/T  T/T  T/T  T/T
 127       3.0  T/T  T/F  T/T  T/T
 128      80.0  T/T  T/T  T/T  T/T