\begin{tabular}{lllrlllrlllrlll}
\toprule
 &  &  & \multicolumn{4}{c}{$\alpha=0.25$} & \multicolumn{4}{c}{$\alpha=0.30$} & \multicolumn{4}{c}{$\alpha=0.35$} \\
Dataset & Model & Method & Miscov.~$\downarrow$ & APSS~$\downarrow$\ & NS~$\downarrow$\ & NAR~$\uparrow$\ & Miscov.~$\downarrow$\ & APSS~$\downarrow$\ & NS~$\downarrow$\ & NAR~$\uparrow$ & Miscov.~$\downarrow$\ & APSS~$\downarrow$\ & NS~$\downarrow$\ & NAR~$\uparrow$\ \\
\midrule
\midrule
DS1000   & GPT 4o Mini & \methodname\ HS  & 0.25   & \textbf{3.06}  & \textbf{20.41} & 0.60     & 0.30   & \textbf{3.05} & 19.06          & 0.68     & 0.35   & \textbf{3.07} & 18.00          & 0.75     \\ \cmidrule(l){2-15} 
         & Gemma 2 27b & \methodname\ HS  & 0.25   & \textbf{6.73}  & 12.73          & 0.47     & 0.29   & \textbf{6.26} & 12.02          & 0.53     & 0.34   & \textbf{5.99} & 11.58          & 0.58     \\ \midrule
GSM      & GPT 4o Mini & CLM Sum          & 0.15   & 1.98           & 2.91           & 0.71     & 0.24   & 1.11          & 1.17           & 1.00     & 0.28   & \textbf{1.00} & \textbf{1.00}  & 1.00     \\
         &             & \methodname\ HS  & 0.21   & 1.47           & 1.48           & 1.00     & 0.22   & 1.29          & 1.30           & 1.00     & 0.22   & 1.22          & 1.22           & 1.00     \\
         &             & \methodname\ L   & 0.22   & \textbf{1.00}  & \textbf{1.00}  & 1.00     & 0.22   & \textbf{1.00} & \textbf{1.00}  & 1.00     & 0.22   & \textbf{1.00} & \textbf{1.00}  & 1.00     \\ \cmidrule(l){2-15} 
         & Llama 3 8B  & CLM First-K      & 0.10   & 13.90          & 22.24          & 0.45     & 0.23   & 11.37         & 16.21          & 0.95     & 0.28   & 7.68          & 9.94           & 1.00     \\
         &             & CLM First-K (nr) & 0.13   & 19.89          & 19.89          & 0.63     & 0.23   & 13.72         & 13.72          & 1.00     & 0.28   & 8.06          & 8.06           & 1.00     \\
         &             & CLM Max          & 0.12   & 13.65          & 24.76          & 0.56     & 0.22   & 10.97         & 23.45          & 0.94     & 0.28   & 9.13          & 21.03          & 1.00     \\
         &             & \methodname\ HS  & 0.24   & \textbf{11.39} & \textbf{12.12} & 1.00     & 0.29   & \textbf{6.98} & \textbf{7.27}  & 1.00     & 0.34   & \textbf{5.38} & \textbf{5.56}  & 1.00     \\
         &             & \methodname\ L   & 0.22   & 12.78          & 13.68          & 1.00     & 0.26   & 7.88          & 8.27           & 1.00     & 0.31   & 5.78          & 5.99           & 1.00     \\ \cmidrule(l){2-15} 
         & Phi 2       & CLM Max          & -    & -            & -            & -      & 0.05   & 16.60         & 22.91          & 0.19     & 0.24   & 11.37         & 20.80          & 0.78     \\
         &             & CLM Sum          & -    & -            & -            & -      & 0.06   & 16.51         & 21.26          & 0.21     & 0.25   & 12.18         & 16.53          & 0.83     \\
         &             & \methodname\ HS  & 0.25   & \textbf{15.79} & \textbf{17.63} & 0.94     & 0.30   & \textbf{9.86} & \textbf{10.56} & 0.99     & 0.35   & \textbf{6.62} & \textbf{6.92}  & 1.00     \\
         &             & \methodname\ L   & 0.05   & 21.83          & 25.00          & 0.20     & 0.27   & 14.27         & 15.90          & 1.00     & 0.32   & 7.51          & 8.00           & 1.00     \\ \midrule
MBPP     & GPT 4o Mini & CLM Max          & 0.08   & 1.04           & 1.76           & 0.38     & 0.15   & 1.02          & 1.38           & 0.65     & 0.24   & 1.01          & 1.06           & 0.95     \\
         &             & \methodname\ HS  & 0.19   & \textbf{1.00}  & 1.00           & 1.00     & 0.19   & \textbf{1.00} & \textbf{1.00}  & 1.00     & 0.19   & \textbf{1.00} & \textbf{1.00}  & 1.00     \\
         &             & \methodname\ L   & 0.18   & 1.03           & \textbf{0.99}  & 1.00     & 0.18   & 1.03          & 1.04           & 1.00     & 0.18   & 1.03          & 1.04           & 1.00     \\ \cmidrule(l){2-15} 
         & Llama 3 8B  & CLM First-K      & -    & -            & -            & -      & 0.02   & 7.13          & 12.16          & 0.07     & 0.13   & 5.78          & 9.75           & 0.45     \\
         &             & CLM Max          & -    & -            & -            & -      & -    & -           & -            & -      & 0.09   & 4.81          & 17.08          & 0.29     \\
         &             & CLM Sum          & -    & -            & -            & -      & 0.02   & 8.45          & 13.40          & 0.06     & 0.11   & 6.31          & 8.81           & 0.36     \\
         &             & \methodname\ HS  & 0.24   & 7.06           & 11.19          & 0.99     & 0.29   & \textbf{3.82} & \textbf{4.78}  & 1.00     & 0.31   & 2.63          & 2.99           & 1.00     \\
         &             & \methodname\ L   & 0.18   & \textbf{6.78}  & \textbf{10.71} & 0.70     & 0.27   & 4.13          & 5.70           & 1.00     & 0.32   & \textbf{2.43} & \textbf{2.90}  & 1.00     \\ \cmidrule(l){2-15} 
         & Phi 2       & CLM First-K (nr) & -    & -            & -            & -      & 0.02   & 19.57         & 19.57          & 0.07     & 0.16   & 9.13          & 9.13           & 0.52     \\
         &             & CLM Sum          & -    & -            & -            & -      & -    & -           & -            & -      & 0.11   & 3.85          & 8.49           & 0.37     \\
         &             & \methodname\ HS  & 0.23   & \textbf{8.37}  & \textbf{16.97} & 0.95     & 0.28   & 4.39          & 7.28           & 0.98     & 0.32   & 2.53          & 3.13           & 1.00     \\
         &             & \methodname\ L   & 0.06   & 10.96          & 22.56          & 0.21     & 0.26   & \textbf{4.25} & \textbf{6.46}  & 0.90     & 0.32   & \textbf{2.37} & \textbf{2.88}  & 1.00     \\ \midrule
Math     & GPT 4o Mini & CLM First-K      & 0.22   & 13.73          & 16.61          & 0.99     & 0.27   & 8.25          & 9.22           & 1.00     & 0.31   & 5.38          & 5.69           & 1.00     \\
         &             & \methodname\ HS  & 0.24   & \textbf{9.17}  & \textbf{9.20}  & 0.98     & 0.29   & \textbf{6.74} & \textbf{6.75}  & 1.00     & 0.34   & 4.98          & 4.99           & 1.00     \\
         &             & \methodname\ L   & 0.23   & 11.74          & 11.80          & 1.00     & 0.28   & 7.08          & 7.10           & 1.00     & 0.32   & \textbf{4.69} & \textbf{4.70}  & 1.00     \\ \midrule
TriviaQA & Llama 3 8B  & CLM First-K      & 0.24   & 5.75           & 5.75           & 1.00     & 0.28   & 1.06          & \textbf{1.07}  & 1.00     & 0.33   & \textbf{1.00} & \textbf{1.00}  & 1.00     \\
         &             & CLM Max          & 0.24   & \textbf{1.42}           & 8.24           & 1.00     & 0.28   & \textbf{1.00} & 1.08           & 1.00     & 0.33   & \textbf{1.00} & \textbf{1.00}  & 1.00     \\
         &             & \methodname\ HS  & 0.26   & 1.51           & 9.60           & 1.00     & 0.29   & 1.15          & 1.90           & 1.00     & 0.31   & \textbf{1.00} & \textbf{1.00}  & 1.00     \\
         &             & \methodname\ L   & 0.25   & 1.55           & 11.70          & 1.00     & 0.29   & 1.17          & 2.00           & 1.00     & 0.31   & \textbf{1.00} & \textbf{1.00}  & 1.00     \\ \cmidrule(l){2-15} 
         & Phi 2       & \methodname\ HS  & 0.24   & \textbf{1.94}  & \textbf{20.70} & 0.59     & 0.29   & \textbf{2.02} & 19.96          & 0.65     & 0.34   & 2.07          & \textbf{19.25}          & 0.73     \\
         &             & \methodname\ L   & -    & -            & -            & -      & -    & -           & -            & -      & 0.05   & \textbf{1.88} & 24.99 & 0.13     \\ \bottomrule

\bottomrule
\end{tabular}

