[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (EcoRI)",
            "HindIII (HindIII)",
            "BamHI (BamHI)",
            "SmaI (SmaI)",
            "NotI (NotI)",
            "PstI (PstI)",
            "XbaI (XbaI)",
            "SalI (SalI)",
            "XhoI (XhoI)",
            "KpnI (KpnI)",
            "MluI (MluI)",
            "AflII (AflII)",
            "BglII (BglII)",
            "EcoRV (EcoRV)",
            "SacI (SacI)",
            "MseI (MseI)",
            "DraI (DraI)",
            "EcoO109I (EcoO109I)",
            "FspI (FspI)",
            "HaeIII (HaeIII)",
            "HinfI (HinfI)",
            "NcoI (NcoI)",
            "PvuII (PvuII)",
            "Sau3AI (Sau3AI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "HindIII",
                "BamHI",
                "SmaI",
                "NotI",
                "PstI",
                "XbaI",
                "SalI",
                "XhoI",
                "KpnI",
                "MluI",
                "AflII",
                "BglII",
                "EcoRV",
                "SacI",
                "MseI",
                "DraI",
                "EcoO109I",
                "FspI",
                "HaeIII",
                "HinfI",
                "NcoI",
                "PvuII",
                "Sau3AI"
            ],
            "mismatches": [],
            "true_referents": [
                "AflI",
                "AflII",
                "AflIII",
                "AhaIII",
                "AspNI",
                "BamHI",
                "BamNII",
                "BglI",
                "BglII",
                "BliAI",
                "CcoI",
                "CpoI",
                "DpnI",
                "DraI",
                "DraII",
                "DraIII",
                "Eco105I",
                "Eco91I",
                "EcoICRI",
                "EcoO109I",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "ErhI",
                "FbaI",
                "FspI",
                "FspII",
                "FspMSI",
                "GstI",
                "HaeII",
                "HaeIII",
                "Hin1I",
                "Hin2I",
                "HindII",
                "HindIII",
                "HinfI",
                "KpnI",
                "Mlu23I",
                "MluI",
                "MluNI",
                "MmeI",
                "MseI",
                "MssI",
                "NcoI",
                "NotI",
                "PovII",
                "PstI",
                "PvuI",
                "PvuII",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "Sau3AI",
                "Sau96I",
                "SauI",
                "ScaI",
                "SelI",
                "SmaI",
                "SwaI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (EcoR I)",
            "HindIII (Hind III)",
            "BamHI (Bam H I)",
            "NotI (Not I)",
            "PstI (Pst I)",
            "XhoI (Xho I)",
            "SmaI (Sma I)",
            "ApaLI (Apa LI)",
            "BglII (Bgl II)",
            "SalI (Sal I)",
            "ClaI (Cla I)",
            "KpnI (Kpn I)",
            "SacI (Sac I)",
            "AgeI (Age I)",
            "BstEII (BstE II)",
            "MfeI (Mfe I)",
            "TaqI (Taq I)",
            "NcoI (Nco I)",
            "SpeI (Spe I)",
            "DpnI (Dpn I)",
            "Tth111I (Tth111 I)",
            "BsaI (Bsa I)",
            "AsuI (Asu I)",
            "PacI (Pac I)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "HindIII",
                "BamHI",
                "NotI",
                "PstI",
                "XhoI",
                "SmaI",
                "ApaLI",
                "BglII",
                "SalI",
                "ClaI",
                "KpnI",
                "SacI",
                "AgeI",
                "MfeI",
                "TaqI",
                "NcoI",
                "SpeI",
                "DpnI",
                "Tth111I",
                "BsaI",
                "AsuI",
                "PacI"
            ],
            "mismatches": [
                "BstEII"
            ],
            "true_referents": [
                "AbeI",
                "AcoI",
                "AgeI",
                "ApaI",
                "ApaLI",
                "AplI",
                "AspNI",
                "AsuI",
                "AsuII",
                "AsuIII",
                "BamHI",
                "BamNII",
                "BglI",
                "BglII",
                "BliAI",
                "BsaI",
                "BsiEI",
                "BsiI",
                "BspAAIII",
                "BthEI",
                "CcoI",
                "ClaI",
                "DpnI",
                "DpnII",
                "EarI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "GstI",
                "HindII",
                "HindIII",
                "Kpn2I",
                "KpnI",
                "LcaI",
                "MfeI",
                "NcoI",
                "NopI",
                "NotI",
                "Pac25I",
                "PacI",
                "PaeI",
                "PfeI",
                "PlaI",
                "PovII",
                "PstI",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "SatI",
                "ScaI",
                "SlaI",
                "SmaI",
                "SmiI",
                "SpeI",
                "SphI",
                "SsiI",
                "Sth117I",
                "TaqI",
                "TaqII",
                "TaqXI",
                "Tth111I",
                "Tth111II",
                "XhoI",
                "XhoII",
                "ZhoI"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (EcoRI)",
            "BamHI (BamHI)",
            "HindIII (HindIII)",
            "PstI (PstI)",
            "SalI (SalI)",
            "XbaI (XbaI)",
            "KpnI (KpnI)",
            "SmaI (SmaI)",
            "ApaI (ApaI)",
            "NotI (NotI)",
            "NdeI (NdeI)",
            "EcoRV (EcoRV)",
            "XhoI (XhoI)",
            "BglII (BglII)",
            "SacI (SacI)",
            "SpeI (SpeI)",
            "XmaI (XmaI)",
            "MluI (MluI)",
            "BsaI (BsaI)",
            "BsmBI (BsmBI)",
            "BstBI (BstBI)",
            "BstEII (BstEII)",
            "BstXI (BstXI)",
            "BstZ17I (BstZ17I)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "PstI",
                "SalI",
                "XbaI",
                "KpnI",
                "SmaI",
                "ApaI",
                "NotI",
                "NdeI",
                "EcoRV",
                "XhoI",
                "BglII",
                "SacI",
                "SpeI",
                "XmaI",
                "MluI",
                "BsaI",
                "BsmBI"
            ],
            "mismatches": [
                "BstBI",
                "BstEII",
                "BstXI",
                "BstZ17I"
            ],
            "true_referents": [
                "AhaIII",
                "ApaI",
                "AspNI",
                "BamHI",
                "BamNII",
                "BglI",
                "BglII",
                "BliAI",
                "BsaI",
                "BscBI",
                "Bse17I",
                "BsiBI",
                "BsiEI",
                "BsiI",
                "BslI",
                "BsmBI",
                "BsoBI",
                "Bsp1720I",
                "BspAAII",
                "BspBI",
                "BspXI",
                "BssAI",
                "BssECI",
                "DpnI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "ErhI",
                "FbaI",
                "GstI",
                "HindII",
                "HindIII",
                "KpnI",
                "MfeI",
                "Mlu23I",
                "MluI",
                "MluNI",
                "Msp17I",
                "NdeI",
                "NdeII",
                "NotI",
                "PaeI",
                "PhaI",
                "PovII",
                "PstI",
                "RspXI",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "ScaI",
                "SelI",
                "SmaI",
                "SpeI",
                "SwaI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XmaCI",
                "XmaI",
                "XmaIII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 20,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (EcoRI)",
            "HindIII (HindIII)",
            "BamHI (BamHI)",
            "HaeIII (HaeIII)",
            "PstI (PstI)",
            "SalI (SalI)",
            "XhoI (XhoI)",
            "ClaI (ClaI)",
            "NotI (NotI)",
            "SmaI (SmaI)",
            "SphI (SphI)",
            "KpnI (KpnI)",
            "NcoI (NcoI)",
            "AvaI (AvaI)",
            "BglII (BglII)",
            "DpnI (DpnI)",
            "HpaII (HpaII)",
            "MboI (MboI)",
            "RsaI (RsaI)",
            "TaqI (TaqI)",
            "AluI (AluI)",
            "Sau3AI (Sau3AI)",
            "XmaI (XmaI)",
            "BssHII (BssHII)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "HindIII",
                "BamHI",
                "HaeIII",
                "PstI",
                "SalI",
                "XhoI",
                "ClaI",
                "NotI",
                "SmaI",
                "SphI",
                "KpnI",
                "NcoI",
                "AvaI",
                "BglII",
                "DpnI",
                "HpaII",
                "MboI",
                "RsaI",
                "TaqI",
                "AluI",
                "Sau3AI",
                "XmaI",
                "BssHII"
            ],
            "mismatches": [],
            "true_referents": [
                "AauI",
                "AhaIII",
                "AluI",
                "AspNI",
                "AsuI",
                "AvaI",
                "AvaII",
                "BamHI",
                "BamNII",
                "BcoI",
                "BglI",
                "BglII",
                "BliAI",
                "BshI",
                "BssHI",
                "BssHII",
                "CaiI",
                "CcoI",
                "ClaI",
                "CpoI",
                "DpnI",
                "DpnII",
                "DsaI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "ErhI",
                "GstI",
                "HaeII",
                "HaeIII",
                "HindII",
                "HindIII",
                "HpaI",
                "HpaII",
                "KpnI",
                "LcaI",
                "MboI",
                "MboII",
                "NcoI",
                "NotI",
                "PfaAII",
                "PlaI",
                "PovII",
                "PstI",
                "RsaI",
                "SalI",
                "SalPI",
                "Sau3AI",
                "Sau96I",
                "SauI",
                "ScaI",
                "SchI",
                "SelI",
                "SmaI",
                "SphI",
                "SplI",
                "SwaI",
                "TaqI",
                "TaqII",
                "TaqXI",
                "XhoI",
                "XhoII",
                "XmaCI",
                "XmaI",
                "XmaIII",
                "ZhoI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI",
            "BamHI",
            "HindIII",
            "PstI",
            "SmaI",
            "XhoI",
            "SalI",
            "NcoI",
            "KpnI",
            "BglII",
            "NotI",
            "SacI",
            "ApaI",
            "ClaI",
            "XbaI",
            "DpnI",
            "HaeIII",
            "AluI",
            "MspI",
            "TaqI",
            "NdeI",
            "SpeI",
            "HpaI",
            "SphI"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "PstI",
                "SmaI",
                "XhoI",
                "SalI",
                "NcoI",
                "KpnI",
                "BglII",
                "NotI",
                "SacI",
                "ApaI",
                "ClaI",
                "XbaI",
                "DpnI",
                "HaeIII",
                "AluI",
                "MspI",
                "TaqI",
                "NdeI",
                "SpeI",
                "HpaI",
                "SphI"
            ],
            "mismatches": [],
            "true_referents": [
                "",
                "AauI",
                "AloI",
                "AluI",
                "ApaI",
                "AplI",
                "AspNI",
                "BamHI",
                "BamNII",
                "BglI",
                "BglII",
                "BliAI",
                "CcoI",
                "ClaI",
                "CpoI",
                "DpnI",
                "DpnII",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "ErhI",
                "FbaI",
                "HaeI",
                "HaeII",
                "HaeIII",
                "HindII",
                "HindIII",
                "HpaI",
                "HpaII",
                "KpnI",
                "LcaI",
                "MfeI",
                "MspI",
                "NcoI",
                "NdeI",
                "NdeII",
                "NotI",
                "PaeI",
                "PhaI",
                "PlaI",
                "PstI",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "SatI",
                "ScaI",
                "SchI",
                "SmaI",
                "SolI",
                "SpaHI",
                "SpeI",
                "SphI",
                "SspI",
                "SstI",
                "SwaI",
                "TaqI",
                "TaqII",
                "TaqXI",
                "VspI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (R0132)",
            "BamHI (R0136)",
            "HindIII (R0104)",
            "NotI (R0183)",
            "XbaI (R0145)",
            "KpnI (R0151)",
            "SmaI (R0141)",
            "PstI (R0148)",
            "SacI (R0154)",
            "AatII (R0122)",
            "MluI (R0180)",
            "NheI (R0192)",
            "SalI (R0155)",
            "ApaI (R0121)",
            "XhoI (R0146)",
            "SpeI (R0156)",
            "FokI (R0127)",
            "BglII (R0137)",
            "ClaI (R0140)",
            "HpaI (R0152)",
            "TaqI (R0172)",
            "BsiWI (R0186)",
            "MscI (R0191)",
            "BstXI (R0193)",
            "AflII (R0131)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "NotI",
                "XbaI",
                "KpnI",
                "SmaI",
                "PstI",
                "SacI",
                "AatII",
                "MluI",
                "NheI",
                "SalI",
                "ApaI",
                "XhoI",
                "SpeI",
                "FokI",
                "BglII",
                "ClaI",
                "HpaI",
                "TaqI",
                "BsiWI",
                "MscI"
            ],
            "mismatches": [
                "BstXI",
                "AflII"
            ],
            "true_referents": [
                "AatI",
                "AatII",
                "AleI",
                "ApaI",
                "Asp40HI",
                "AspNI",
                "BamHI",
                "BcoKI",
                "BglI",
                "BglII",
                "BliAI",
                "BseX3I",
                "Bsh1236I",
                "BsiKI",
                "BsiWI",
                "Bsp1286I",
                "BspWI",
                "BspXI",
                "Bsu54I",
                "ClaI",
                "DpnI",
                "DsaI",
                "DsaIII",
                "Eco32I",
                "Eco81I",
                "EcoRI",
                "EcoRII",
                "ErhI",
                "FbaI",
                "FokI",
                "GstI",
                "HaeIII",
                "HindII",
                "HindIII",
                "HpaI",
                "HpaII",
                "Hpy188III",
                "KpnI",
                "LcaI",
                "Mlu23I",
                "MluI",
                "MluNI",
                "MscI",
                "MspR9I",
                "MstII",
                "NaeI",
                "NheI",
                "NotI",
                "PceI",
                "PstI",
                "PtaI",
                "RspXI",
                "SacI",
                "SacII",
                "SalI",
                "SalPI",
                "SmaI",
                "SmiI",
                "SpeI",
                "Sse9I",
                "Taq52I",
                "TaqI",
                "TaqII",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 23,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (EcoRI)",
            "EcoRV (EcoRV)",
            "HindIII (HindIII)",
            "BamHI (BamHI)",
            "PstI (PstI)",
            "SalI (SalI)",
            "SmaI (SmaI)",
            "XhoI (XhoI)",
            "KpnI (KpnI)",
            "NotI (NotI)",
            "AvaI (AvaI)",
            "SacI (SacI)",
            "NdeI (NdeI)",
            "XbaI (XbaI)",
            "HaeIII (HaeIII)",
            "AluI (AluI)",
            "ClaI (ClaI)",
            "BglII (BglII)",
            "HpaI (HpaI)",
            "Sau3AI (Sau3AI)",
            "TaqI (TaqI)",
            "PvuII (PvuII)",
            "ScaI (ScaI)",
            "SphI (SphI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "EcoRV",
                "HindIII",
                "BamHI",
                "PstI",
                "SalI",
                "SmaI",
                "XhoI",
                "KpnI",
                "NotI",
                "AvaI",
                "SacI",
                "NdeI",
                "XbaI",
                "HaeIII",
                "AluI",
                "ClaI",
                "BglII",
                "HpaI",
                "Sau3AI",
                "TaqI",
                "PvuII",
                "ScaI",
                "SphI"
            ],
            "mismatches": [],
            "true_referents": [
                "AauI",
                "AhaIII",
                "AluI",
                "ApaI",
                "AspNI",
                "AsuI",
                "AvaI",
                "AvaII",
                "BamHI",
                "BamNII",
                "BglI",
                "BglII",
                "BliAI",
                "CaiI",
                "ClaI",
                "DpnI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "ErhI",
                "FbaI",
                "GstI",
                "HaeII",
                "HaeIII",
                "HindII",
                "HindIII",
                "HpaI",
                "HpaII",
                "KpnI",
                "LcaI",
                "MfeI",
                "NdeI",
                "NdeII",
                "NotI",
                "PlaI",
                "PovII",
                "PstI",
                "PvuI",
                "PvuII",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "Sau3AI",
                "Sau96I",
                "SauI",
                "ScaI",
                "SchI",
                "SelI",
                "SmaI",
                "SphI",
                "SplI",
                "SwaI",
                "TaqI",
                "TaqII",
                "TaqXI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI",
            "BamHI",
            "HindIII",
            "NotI",
            "SmaI",
            "XbaI",
            "XhoI",
            "PstI",
            "SalI",
            "KpnI",
            "BglII",
            "EcoRV",
            "Sau3AI",
            "NcoI",
            "AvaI",
            "BstEII",
            "BstZ17I",
            "MluI",
            "SphI",
            "AatII",
            "BspQI",
            "DpnI",
            "HpaII",
            "MboI"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "NotI",
                "SmaI",
                "XbaI",
                "XhoI",
                "PstI",
                "SalI",
                "KpnI",
                "BglII",
                "EcoRV",
                "Sau3AI",
                "NcoI",
                "AvaI",
                "MluI",
                "SphI",
                "AatII",
                "BspQI",
                "DpnI",
                "HpaII",
                "MboI"
            ],
            "mismatches": [
                "BstEII",
                "BstZ17I"
            ],
            "true_referents": [
                "",
                "AatI",
                "AatII",
                "AitI",
                "AplI",
                "AspNI",
                "AvaI",
                "AvaII",
                "AvrII",
                "BamHI",
                "BamNII",
                "BcoI",
                "BglI",
                "BglII",
                "BliAI",
                "Bse17I",
                "BseAI",
                "BseQI",
                "BsiEI",
                "BsiI",
                "Bsp1720I",
                "BspBI",
                "BspCI",
                "CcoI",
                "CpoI",
                "DpnI",
                "DpnII",
                "DsaII",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "ErhI",
                "FbaI",
                "HindII",
                "HindIII",
                "HpaI",
                "HpaII",
                "KpnI",
                "MboI",
                "MboII",
                "MluB2I",
                "MluI",
                "MluNI",
                "Msp17I",
                "NcoI",
                "NotI",
                "PstI",
                "SalI",
                "SalPI",
                "SatI",
                "Sau3AI",
                "Sau96I",
                "SauI",
                "ScaI",
                "SchI",
                "SmaI",
                "SolI",
                "SpaHI",
                "SphI",
                "SstI",
                "SwaI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (EcoRI)",
            "BamHI (BamHI)",
            "HindIII (HindIII)",
            "NotI (NotI)",
            "PstI (PstI)",
            "SacI (SacI)",
            "SalI (SalI)",
            "XhoI (XhoI)",
            "KpnI (KpnI)",
            "NdeI (NdeI)",
            "SmaI (SmaI)",
            "XbaI (XbaI)",
            "SpeI (SpeI)",
            "AvaI (AvaI)",
            "BglII (BglII)",
            "AluI (AluI)",
            "MluI (MluI)",
            "SphI (SphI)",
            "AatII (AatII)",
            "EagI (EagI)",
            "BsrGI (BsrGI)",
            "HaeII (HaeII)",
            "MspI (MspI)",
            "EcoRV (EcoRV)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "NotI",
                "PstI",
                "SacI",
                "SalI",
                "XhoI",
                "KpnI",
                "NdeI",
                "SmaI",
                "XbaI",
                "SpeI",
                "AvaI",
                "BglII",
                "AluI",
                "MluI",
                "SphI",
                "AatII",
                "EagI",
                "BsrGI",
                "HaeII",
                "MspI",
                "EcoRV"
            ],
            "mismatches": [],
            "true_referents": [
                "AatI",
                "AatII",
                "AauI",
                "AhaIII",
                "AitI",
                "AluI",
                "AspNI",
                "AsuI",
                "AvaI",
                "AvaII",
                "BamHI",
                "BamNII",
                "BglI",
                "BglII",
                "BliAI",
                "BseGI",
                "BsrGI",
                "BsrSI",
                "CaiI",
                "DpnI",
                "EaeAI",
                "EagI",
                "EagMI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "ErhI",
                "FbaI",
                "GstI",
                "HaeI",
                "HaeII",
                "HaeIII",
                "HindII",
                "HindIII",
                "KpnI",
                "MfeI",
                "Mlu23I",
                "MluI",
                "MluNI",
                "MspI",
                "NdeI",
                "NdeII",
                "NotI",
                "PaeI",
                "PovII",
                "PstI",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "ScaI",
                "SchI",
                "SelI",
                "SmaI",
                "SpeI",
                "SphI",
                "SplI",
                "SspI",
                "SwaI",
                "VspI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI",
            "BamHI",
            "HindIII",
            "NotI",
            "XhoI",
            "PstI",
            "SalI",
            "KpnI",
            "SmaI",
            "EcoRV",
            "XbaI",
            "SacI",
            "BglII",
            "NdeI",
            "ApaI",
            "PvuII",
            "HaeIII",
            "MspI",
            "TaqI",
            "AluI",
            "DpnI",
            "FokI",
            "BstEII",
            "NcoI"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "NotI",
                "XhoI",
                "PstI",
                "SalI",
                "KpnI",
                "SmaI",
                "EcoRV",
                "XbaI",
                "SacI",
                "BglII",
                "NdeI",
                "ApaI",
                "PvuII",
                "HaeIII",
                "MspI",
                "TaqI",
                "AluI",
                "DpnI",
                "FokI",
                "NcoI"
            ],
            "mismatches": [
                "BstEII"
            ],
            "true_referents": [
                "",
                "AauI",
                "AloI",
                "AluI",
                "ApaI",
                "AplI",
                "AspNI",
                "BamHI",
                "BamNII",
                "BcoKI",
                "BglI",
                "BglII",
                "BliAI",
                "BseAI",
                "BsiEI",
                "BsiI",
                "CcoI",
                "CpoI",
                "DpnI",
                "DpnII",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "ErhI",
                "FbaI",
                "FokI",
                "HaeI",
                "HaeII",
                "HaeIII",
                "HindII",
                "HindIII",
                "KpnI",
                "MfeI",
                "MspI",
                "NcoI",
                "NdeI",
                "NdeII",
                "NotI",
                "OfoI",
                "PhaI",
                "PstI",
                "PvuI",
                "PvuII",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "SatI",
                "ScaI",
                "SmaI",
                "SolI",
                "SspI",
                "SstI",
                "SwaI",
                "TaqI",
                "TaqII",
                "TaqXI",
                "VspI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (Escherichia coli RY13I)",
            "BamHI (Bacillus amyloliquefaciens H)",
            "HindIII (Haemophilus influenzae Rd)",
            "NotI (Nocardia otitidis-caviarum)",
            "PstI (Providencia stuartii 164)",
            "SmaI (Serratia marcescens Sb)",
            "XbaI (Xanthomonas badrii)",
            "SalI (Streptomyces albus G)",
            "KpnI (Klebsiella pneumoniae OK8)",
            "SacI (Streptomyces achromogenes)",
            "ApaI (Acetobacter pasteurianus)",
            "XhoI (Xanthomonas holcicola)",
            "SphI (Streptomyces phaeochromogenes)",
            "NdeI (Neisseria denitrificans)",
            "NcoI (Nocardia coralline)",
            "NheI (Neisseria mucosa heidelbergensis)",
            "BglII (Bacillus globigii)",
            "SpeI (Sphaerotilus species)",
            "AvaI (Anabaena variabilis)",
            "DraI (Deinococcus radiophilus)",
            "StuI (Streptomyces tubercidicus)",
            "PvuI (Proteus vulgaris)",
            "EagI (Enterobacter agglomerans)",
            "NruI (Nocardia rubra)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "NotI",
                "PstI",
                "SmaI",
                "XbaI",
                "SalI",
                "KpnI",
                "SacI",
                "ApaI",
                "XhoI",
                "SphI",
                "NdeI",
                "NcoI",
                "NheI",
                "BglII",
                "SpeI",
                "AvaI",
                "DraI",
                "StuI",
                "PvuI",
                "EagI",
                "NruI"
            ],
            "mismatches": [],
            "true_referents": [
                "",
                "AcoI",
                "AhaII",
                "ApaI",
                "AseI",
                "AspNI",
                "AvaI",
                "AvaII",
                "BamHI",
                "BamNII",
                "BdiI",
                "BglI",
                "BglII",
                "BliAI",
                "BshI",
                "CboI",
                "DpnI",
                "DraI",
                "DraII",
                "DraIII",
                "EagBI",
                "EagI",
                "EagMI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EheI",
                "FbaI",
                "GstI",
                "HgiHIII",
                "HindII",
                "HindIII",
                "KpnI",
                "NaeI",
                "NcoI",
                "NcuI",
                "NdeI",
                "NdeII",
                "NheI",
                "NopI",
                "NotI",
                "NruI",
                "PfaAI",
                "PstI",
                "PvuI",
                "PvuII",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "ScaI",
                "SchI",
                "SmaI",
                "SmiI",
                "SpeI",
                "SphI",
                "SplI",
                "SruI",
                "SteI",
                "StsI",
                "StuI",
                "TseI",
                "XbaI",
                "XciI",
                "XhoI",
                "XhoII",
                "XpaI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "EcoRI (R)",
            "BamHI (B)",
            "HindIII (H)",
            "SalI (S)",
            "PstI (P)",
            "XbaI (Xb)",
            "SmaI (Sm)",
            "KpnI (K)",
            "SacI (Sa)",
            "XhoI (X)",
            "HaeIII (Ha)",
            "BglII (Bg)",
            "EcoRV (Rv)",
            "NotI (N)",
            "ApaI (Ap)",
            "SphI (Sp)",
            "PvuII (Pv)",
            "NdeI (Nd)",
            "BglI (Bg)",
            "SacII (Sc)",
            "XmaI (Xm)",
            "SpeI (Sp)",
            "NheI (Nh)",
            "ClaI (Cl)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "EcoRI",
                "BamHI",
                "HindIII",
                "SalI",
                "PstI",
                "XbaI",
                "SmaI",
                "KpnI",
                "SacI",
                "XhoI",
                "HaeIII",
                "BglII",
                "EcoRV",
                "NotI",
                "ApaI",
                "SphI",
                "PvuII",
                "NdeI",
                "BglI",
                "SacII",
                "XmaI",
                "SpeI",
                "NheI",
                "ClaI"
            ],
            "mismatches": [],
            "true_referents": [
                "",
                "ApaI",
                "AssI",
                "BamHI",
                "BamNII",
                "BdiI",
                "BglI",
                "BglII",
                "BliAI",
                "BshI",
                "BtgI",
                "ClaI",
                "DpnI",
                "Eco91I",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "EheI",
                "FbaI",
                "HaeI",
                "HaeII",
                "HaeIII",
                "HgiHIII",
                "HindII",
                "HindIII",
                "Kpn2I",
                "KpnI",
                "LcaI",
                "NaeI",
                "NdeI",
                "NdeII",
                "NheI",
                "NopI",
                "NotI",
                "PaeI",
                "PctI",
                "PhaI",
                "PlaI",
                "PstI",
                "PvuI",
                "PvuII",
                "SacI",
                "SacII",
                "SalI",
                "SalPI",
                "SapI",
                "ScaI",
                "SchI",
                "SmaI",
                "SmiI",
                "SpeI",
                "SphI",
                "SpmI",
                "SsiI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XmaI",
                "XmaIII",
                "XmiI",
                "XpaI",
                "ZhoI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "Bam HI (BamHI)",
            "Eco RI (EcoRI)",
            "Hind III (HindIII)",
            "Sal I (SalI)",
            "Xba I (XbaI)",
            "Pst I (PstI)",
            "Kpn I (KpnI)",
            "Sma I (SmaI)",
            "Xho I (XhoI)",
            "Nco I (NcoI)",
            "Apa I (ApaI)",
            "Nhe I (NheI)",
            "Bgl II (BglII)",
            "Sac I (SacI)",
            "Acc I (AccI)",
            "Cla I (ClaI)",
            "Mlu I (MluI)",
            "Aat II (AatII)",
            "Afl II (AflII)",
            "Ava I (AvaI)",
            "Dra I (DraI)",
            "Eag I (EagI)",
            "Fse I (FseI)",
            "Mfe I (MfeI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "BamHI",
                "EcoRI",
                "HindIII",
                "SalI",
                "XbaI",
                "PstI",
                "KpnI",
                "SmaI",
                "XhoI",
                "NcoI",
                "ApaI",
                "NheI",
                "BglII",
                "SacI",
                "AccI",
                "ClaI",
                "MluI",
                "AatII",
                "AflII",
                "AvaI",
                "DraI",
                "EagI",
                "FseI",
                "MfeI"
            ],
            "mismatches": [],
            "true_referents": [
                "AatI",
                "AatII",
                "AccI",
                "AccII",
                "AccIII",
                "AcoI",
                "AflI",
                "AflII",
                "AflIII",
                "AitI",
                "ApaCI",
                "ApaI",
                "AplI",
                "AvaI",
                "AvaII",
                "AvrII",
                "BamHI",
                "BamNII",
                "BanIII",
                "BglI",
                "BglII",
                "BliAI",
                "BthEI",
                "CcoI",
                "ClaI",
                "CltI",
                "DpnI",
                "DraI",
                "DraII",
                "DraIII",
                "EagBI",
                "EagI",
                "EagMI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EheI",
                "FbaI",
                "FseI",
                "FssI",
                "GstI",
                "HindII",
                "HindIII",
                "Kpn2I",
                "KpnI",
                "LcaI",
                "MfeI",
                "Mlu23I",
                "MluI",
                "MluNI",
                "NaeI",
                "NcoI",
                "NheI",
                "PfeI",
                "PstI",
                "SacI",
                "SacII",
                "SacNI",
                "SalI",
                "SalPI",
                "ScaI",
                "SfeI",
                "SlaI",
                "SmaI",
                "SmiI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": "[\n\"EcoRI (EcoRI)\" ,\n\" BamHI (BamHI)\" ,\n\" HindIII (HindIII)\" ,\n\" PstI (PstI)\" ,\n\" NotI (NotI)\" ,\n\" SacI (SacI)\" ,\n\" XhoI (XhoI)\" ,\n\" EcoRV (EcoRV)\" ,\n\" PvuII (PvuII)\" ,\n\" NcoI (NcoI)\" ,\n\" BglII (BglII)\" ,\n\" ClaI (ClaI)\" ,\n\" XbaI (XbaI)\" ,\n\" SpeI (SpeI)\" ,\n\" KpnI (KpnI)\" ,\n\" SalI (SalI)\" ,\n\" BstXI (BstXI)\" ,\n\" Asp718I (Asp718I)\" ,\n\" SphI (SphI)\" ,\n\" AflII (AflII)\" ,\n\" MboI (MboI)\" ,\n\" Sau3AI (Sau3AI)\" ,\n\" SmaI (SmaI)\"",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": [
            "BamHI (BamHI)",
            "EcoRI (EcoRI)",
            "HindIII (HindIII)",
            "TaqI (TaqI)",
            "NotI (NotI)",
            "NcoI (NcoI)",
            "PstI (PstI)",
            "SacI (SacI)",
            "SmaI (SmaI)",
            "XbaI (XbaI)",
            "XhoI (XhoI)",
            "AatII (AatII)",
            "AflII (AflII)",
            "ApaI (ApaI)",
            "BglII (BglII)",
            "BstXI (BstXI)",
            "ClaI (ClaI)",
            "DraI (DraI)",
            "DraIII (DraIII)",
            "EagI (EagI)",
            "EcoRV (EcoRV)",
            "HaeIII (HaeIII)",
            "HpaI (HpaI)",
            "MfeI (MfeI)",
            "MluI (MluI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "BamHI",
                "EcoRI",
                "HindIII",
                "TaqI",
                "NotI",
                "NcoI",
                "PstI",
                "SacI",
                "SmaI",
                "XbaI",
                "XhoI",
                "AatII",
                "AflII",
                "ApaI",
                "BglII",
                "ClaI",
                "DraI",
                "DraIII",
                "EagI",
                "EcoRV",
                "HaeIII",
                "HpaI",
                "MfeI"
            ],
            "mismatches": [
                "BstXI",
                "MluI"
            ],
            "true_referents": [
                "AatI",
                "AatII",
                "AflI",
                "AflII",
                "AflIII",
                "AhaIII",
                "AitI",
                "ApaI",
                "BamHI",
                "BamNII",
                "BglI",
                "BglII",
                "BliAI",
                "BspXI",
                "CcoI",
                "ClaI",
                "CpoI",
                "DraI",
                "DraII",
                "DraIII",
                "EaeAI",
                "EagI",
                "EagMI",
                "EcoICRI",
                "EcoRI",
                "EcoRII",
                "EcoRV",
                "ErhI",
                "FbaI",
                "GstI",
                "HaeII",
                "HaeIII",
                "HindII",
                "HindIII",
                "HpaI",
                "HpaII",
                "LcaI",
                "MfeI",
                "NcoI",
                "NotI",
                "PfeI",
                "PhaI",
                "PlaI",
                "PovII",
                "PstI",
                "RspXI",
                "SacI",
                "SacII",
                "SacNI",
                "ScaI",
                "SmaI",
                "SwaI",
                "TaqI",
                "TaqII",
                "TaqXI",
                "XbaI",
                "XhoI",
                "XhoII",
                "XpaI",
                "ZhoI"
            ],
            "TP": 23,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "DNA restriction enzyme",
        "domain": "biology",
        "response": "error when calling model 'amazon.titan-text-express-v1': empty response",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    }
]