[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Cetuximab (C225)",
            "Panitumumab (ABX-EGF)",
            "Bevacizumab (Avastin)",
            "Regorafenib (Stivarga)",
            "Ramucirumab (Cyramza)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Trifluridine/tipiracil (Lonsurf)",
            "Folfox",
            "Folfiri",
            "Irinotecan (Camptosar)",
            "Oxaliplatin",
            "Capecitabine (Xeloda)",
            "Fluorouracil (5-FU)",
            "Leucovorin (Folvite)",
            "Tas-102 (Lonsurf)",
            "Raltitrexed (Tomudex)",
            "Tegafur/uracil (UFT)",
            "Uftolosine (UFT)",
            "Bougies (5-FU)",
            "Zolbetuximab (IMAB362)",
            "Aflibercept (Zaltrap)",
            "Trametinib (Mekinist)",
            "Encorafenib (BGB-283)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Cetuximab (C225)",
                "Panitumumab (ABX-EGF)",
                "Bevacizumab (Avastin)",
                "Regorafenib (Stivarga)",
                "Ramucirumab (Cyramza)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Folfox",
                "Folfiri",
                "Irinotecan (Camptosar)",
                "Oxaliplatin",
                "Capecitabine (Xeloda)",
                "Fluorouracil (5-FU)",
                "Leucovorin (Folvite)",
                "Tas-102 (Lonsurf)",
                "Raltitrexed (Tomudex)",
                "Tegafur/uracil (UFT)",
                "Uftolosine (UFT)",
                "Bougies (5-FU)",
                "Zolbetuximab (IMAB362)",
                "Aflibercept (Zaltrap)",
                "Trametinib (Mekinist)",
                "Encorafenib (BGB-283)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Bougies (5-FU)",
                "Capecitabine (Xeloda)",
                "Cetuximab (C225)",
                "Encorafenib (BGB-283)",
                "Fluorouracil (5-FU)",
                "Folfiri",
                "Folfox",
                "Irinotecan (Camptosar)",
                "Leucovorin (Folvite)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin",
                "Panitumumab (ABX-EGF)",
                "Pembrolizumab (Keytruda)",
                "Raltitrexed (Tomudex)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Tas-102 (Lonsurf)",
                "Tegafur/uracil (UFT)",
                "Trametinib (Mekinist)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Uftolosine (UFT)",
                "Zolbetuximab (IMAB362)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "5-Fluorouracil (5-FU)",
            "Capecitabine (Xeloda)",
            "Leucovorin (LV)",
            "Oxaliplatin (Eloxatin)",
            "Irinotecan (Camptosar)",
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Trifluridine/Tipiracil (Lonsurf)",
            "Raltitrexed (Tomudex)",
            "Vincristine (Oncovin)",
            "Nedaplatin (Nedaplatin)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Aflibercept (Zaltrap)",
            "Ramucirumab (Cyramza)",
            "Tasquinimod (TA-65)",
            "Lapatinib (Tykerb)",
            "Sorafenib (Nexavar)",
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Tivantinib (ARQ 197)",
            "FOLFOX (Leucovorin, 5-Fluorouracil, Oxaliplatin)",
            "FOLFIRI (Leucovorin, 5-Fluorouracil, Irinotecan)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "5-Fluorouracil (5-FU)",
                "Capecitabine (Xeloda)",
                "Leucovorin (LV)",
                "Oxaliplatin (Eloxatin)",
                "Irinotecan (Camptosar)",
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Raltitrexed (Tomudex)",
                "Vincristine (Oncovin)",
                "Nedaplatin (Nedaplatin)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Aflibercept (Zaltrap)",
                "Ramucirumab (Cyramza)",
                "Tasquinimod (TA-65)",
                "Lapatinib (Tykerb)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Tivantinib (ARQ 197)",
                "FOLFOX (Leucovorin, 5-Fluorouracil, Oxaliplatin)"
            ],
            "mismatches": [
                "FOLFIRI (Leucovorin, 5-Fluorouracil, Irinotecan)"
            ],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "FOLFOX (Leucovorin, 5-Fluorouracil, Oxaliplatin)",
                "Irinotecan (Camptosar)",
                "Lapatinib (Tykerb)",
                "Leucovorin (LV)",
                "Nedaplatin (Nedaplatin)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Raltitrexed (Tomudex)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Tasquinimod (TA-65)",
                "Tivantinib (ARQ 197)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Vincristine (Oncovin)"
            ],
            "TP": 24,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "5-Fluorouracil (5-FU)",
            "Capecitabine (Xeloda)",
            "Oxaliplatin (Eloxatin)",
            "Irinotecan (Camptosar)",
            "Leucovorin (Wellcovorin)",
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Ramucirumab (Cyramza)",
            "Ziv-aflibercept (Zaltrap)",
            "Trifluridine/Tipiracil (Lonsurf)",
            "Fluorouracil, Leucovorin, Oxaliplatin (FOLFOX)",
            "Fluorouracil, Leucovorin, Irinotecan (FOLFIRI)",
            "Fluorouracil, Leucovorin, Oxaliplatin, Bevacizumab (mFOLFOX6 + Bevacizumab)",
            "Fluorouracil, Leucovorin, Irinotecan, Bevacizumab (FOLFIRI + Bevacizumab)",
            "Fluorouracil, Leucovorin, Irinotecan, Cetuximab (FOLFIRI + Cetuximab)",
            "Fluorouracil, Leucovorin, Oxaliplatin, Cetuximab (mFOLFOX6 + Cetuximab)",
            "Fluorouracil, Leucovorin, Irinotecan, Panitumumab (FOLFIRI + Panitumumab)",
            "Fluorouracil, Leucovorin, Oxaliplatin, Panitumumab (mFOLFOX6 + Panitumumab)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "5-Fluorouracil (5-FU)",
                "Capecitabine (Xeloda)",
                "Oxaliplatin (Eloxatin)",
                "Irinotecan (Camptosar)",
                "Leucovorin (Wellcovorin)",
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Ramucirumab (Cyramza)",
                "Ziv-aflibercept (Zaltrap)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Fluorouracil, Leucovorin, Oxaliplatin (FOLFOX)",
                "Fluorouracil, Leucovorin, Irinotecan (FOLFIRI)",
                "Fluorouracil, Leucovorin, Oxaliplatin, Bevacizumab (mFOLFOX6 + Bevacizumab)",
                "Fluorouracil, Leucovorin, Irinotecan, Bevacizumab (FOLFIRI + Bevacizumab)",
                "Fluorouracil, Leucovorin, Irinotecan, Cetuximab (FOLFIRI + Cetuximab)",
                "Fluorouracil, Leucovorin, Oxaliplatin, Cetuximab (mFOLFOX6 + Cetuximab)",
                "Fluorouracil, Leucovorin, Irinotecan, Panitumumab (FOLFIRI + Panitumumab)",
                "Fluorouracil, Leucovorin, Oxaliplatin, Panitumumab (mFOLFOX6 + Panitumumab)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)"
            ],
            "mismatches": [
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)"
            ],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Encorafenib (Braftovi)",
                "Fluorouracil, Leucovorin, Irinotecan (FOLFIRI)",
                "Fluorouracil, Leucovorin, Irinotecan, Bevacizumab (FOLFIRI + Bevacizumab)",
                "Fluorouracil, Leucovorin, Irinotecan, Cetuximab (FOLFIRI + Cetuximab)",
                "Fluorouracil, Leucovorin, Irinotecan, Panitumumab (FOLFIRI + Panitumumab)",
                "Fluorouracil, Leucovorin, Oxaliplatin (FOLFOX)",
                "Fluorouracil, Leucovorin, Oxaliplatin, Bevacizumab (mFOLFOX6 + Bevacizumab)",
                "Fluorouracil, Leucovorin, Oxaliplatin, Cetuximab (mFOLFOX6 + Cetuximab)",
                "Fluorouracil, Leucovorin, Oxaliplatin, Panitumumab (mFOLFOX6 + Panitumumab)",
                "Irinotecan (Camptosar)",
                "Leucovorin (Wellcovorin)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Ziv-aflibercept (Zaltrap)"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Fluorouracil (5-FU)",
            "Capecitabine (CAP)",
            "Oxaliplatin (OXAL)",
            "Irinotecan (CPT-11)",
            "Leucovorin (LV)",
            "FOLFOX (5-FU, LV, OXAL)",
            "FOLFIRI (5-FU, LV, CPT-11)",
            "FOLFOXIRI (5-FU, LV, OXAL, CPT-11)",
            "Bevacizumab (BEV)",
            "Cetuximab (CTX)",
            "Panitumumab (PAN)",
            "Regorafenib (REG)",
            "Afatinib (AFAT)",
            "Trastuzumab deruxtecan (T-DXd)",
            "Ramucirumab (RAM)",
            "Lonsurf (trifluridine/tipiracil)",
            "Encorafenib (ENCO)",
            "Binimetinib (BINI)",
            "Pembrolizumab (PEM)",
            "Nivolumab (NIVO)",
            "Dostarlimab (Dosta)",
            "Relatlimab (RELA)",
            "Sotorasib (SOT)",
            "Adagrasib (ADA)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fluorouracil (5-FU)",
                "Capecitabine (CAP)",
                "Oxaliplatin (OXAL)",
                "Irinotecan (CPT-11)",
                "Leucovorin (LV)",
                "FOLFOX (5-FU, LV, OXAL)",
                "FOLFIRI (5-FU, LV, CPT-11)",
                "FOLFOXIRI (5-FU, LV, OXAL, CPT-11)",
                "Bevacizumab (BEV)",
                "Cetuximab (CTX)",
                "Panitumumab (PAN)",
                "Regorafenib (REG)",
                "Afatinib (AFAT)",
                "Trastuzumab deruxtecan (T-DXd)",
                "Ramucirumab (RAM)",
                "Lonsurf (trifluridine/tipiracil)",
                "Encorafenib (ENCO)",
                "Binimetinib (BINI)",
                "Pembrolizumab (PEM)",
                "Nivolumab (NIVO)",
                "Dostarlimab (Dosta)",
                "Relatlimab (RELA)",
                "Sotorasib (SOT)",
                "Adagrasib (ADA)"
            ],
            "mismatches": [],
            "true_referents": [
                "Adagrasib (ADA)",
                "Afatinib (AFAT)",
                "Bevacizumab (BEV)",
                "Binimetinib (BINI)",
                "Capecitabine (CAP)",
                "Cetuximab (CTX)",
                "Dostarlimab (Dosta)",
                "Encorafenib (ENCO)",
                "FOLFIRI (5-FU, LV, CPT-11)",
                "FOLFOX (5-FU, LV, OXAL)",
                "FOLFOXIRI (5-FU, LV, OXAL, CPT-11)",
                "Fluorouracil (5-FU)",
                "Irinotecan (CPT-11)",
                "Leucovorin (LV)",
                "Lonsurf (trifluridine/tipiracil)",
                "Nivolumab (NIVO)",
                "Oxaliplatin (OXAL)",
                "Panitumumab (PAN)",
                "Pembrolizumab (PEM)",
                "Ramucirumab (RAM)",
                "Regorafenib (REG)",
                "Relatlimab (RELA)",
                "Sotorasib (SOT)",
                "Trastuzumab deruxtecan (T-DXd)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Trifluridine/Tipiracil (Lonsurf)",
            "Irinotecan (Camptosar)",
            "Leucovorin (Wellcovorin)",
            "Oxaliplatin (Eloxatin)",
            "Capecitabine (Xeloda)",
            "Fluorouracil (5-FU)",
            "Ramucirumab (Cyramza)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Aflibercept (Zaltrap)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Dostarlimab (Jemperli)",
            "Ziv-aflibercept (Zaltrap)",
            "Trastuzumab (Herceptin)",
            "Lapatinib (Tykerb)",
            "Sorafenib (Nexavar)",
            "Sunitinib (Sutent)",
            "Cabozantinib (Cabometyx)",
            "Larotrectinib (Vitrakvi)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Irinotecan (Camptosar)",
                "Leucovorin (Wellcovorin)",
                "Oxaliplatin (Eloxatin)",
                "Capecitabine (Xeloda)",
                "Fluorouracil (5-FU)",
                "Ramucirumab (Cyramza)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Aflibercept (Zaltrap)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Dostarlimab (Jemperli)",
                "Ziv-aflibercept (Zaltrap)",
                "Trastuzumab (Herceptin)",
                "Lapatinib (Tykerb)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Cabozantinib (Cabometyx)",
                "Larotrectinib (Vitrakvi)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Cabozantinib (Cabometyx)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Dostarlimab (Jemperli)",
                "Encorafenib (Braftovi)",
                "Fluorouracil (5-FU)",
                "Irinotecan (Camptosar)",
                "Lapatinib (Tykerb)",
                "Larotrectinib (Vitrakvi)",
                "Leucovorin (Wellcovorin)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Trastuzumab (Herceptin)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Ziv-aflibercept (Zaltrap)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Fluorouracil (5-FU)",
            "Leucovorin (LV)",
            "Oxaliplatin (Eloxatin)",
            "Capecitabine (Xeloda)",
            "Irinotecan (Camptosar)",
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Trifluridine/tipiracil (Lonsurf)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Aflibercept (Zaltrap)",
            "Ziv-aflibercept (Zaltrap)",
            "Ramucirumab (Cyramza)",
            "TAS-102 (Lonsurf)",
            "Moxetumomab pasudotox (Lumoxiti)",
            "Sunitinib (Sutent)",
            "Lapatinib (Tykerb)",
            "Regorafenib (Stivarga)",
            "Nintedanib (Ofev)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Idelalisib (Zydelig)",
            "Atezolizumab (Tecentriq)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fluorouracil (5-FU)",
                "Leucovorin (LV)",
                "Oxaliplatin (Eloxatin)",
                "Capecitabine (Xeloda)",
                "Irinotecan (Camptosar)",
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Aflibercept (Zaltrap)",
                "Ziv-aflibercept (Zaltrap)",
                "Ramucirumab (Cyramza)",
                "TAS-102 (Lonsurf)",
                "Moxetumomab pasudotox (Lumoxiti)",
                "Sunitinib (Sutent)",
                "Lapatinib (Tykerb)",
                "Nintedanib (Ofev)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Idelalisib (Zydelig)"
            ],
            "mismatches": [
                "Atezolizumab (Tecentriq)"
            ],
            "true_referents": [
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Dabrafenib (Tafinlar)",
                "Fluorouracil (5-FU)",
                "Idelalisib (Zydelig)",
                "Irinotecan (Camptosar)",
                "Lapatinib (Tykerb)",
                "Leucovorin (LV)",
                "Moxetumomab pasudotox (Lumoxiti)",
                "Nintedanib (Ofev)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sunitinib (Sutent)",
                "TAS-102 (Lonsurf)",
                "Trametinib (Mekinist)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Ziv-aflibercept (Zaltrap)"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "5-Fluorouracil (5-FU)",
            "Oxaliplatin (Eloxatin)",
            "Irinotecan (Camptosar)",
            "Capecitabine (Xeloda)",
            "Trifluridine/Tipiracil (Lonsurf)",
            "Cetuximab (Erbitux)",
            "Bevacizumab (Avastin)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Aflibercept (Zaltrap)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Ramucirumab (Cyramza)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Sotorasib (Lumakras)",
            "Larotrectinib (Vitrakvi)",
            "Entrectinib (Rozlytrek)",
            "Neratinib (Nerlynx)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Pembrolizumab (Keytruda)",
            "Pemigatinib (Pemazyre)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "5-Fluorouracil (5-FU)",
                "Oxaliplatin (Eloxatin)",
                "Irinotecan (Camptosar)",
                "Capecitabine (Xeloda)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Cetuximab (Erbitux)",
                "Bevacizumab (Avastin)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Aflibercept (Zaltrap)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Ramucirumab (Cyramza)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Sotorasib (Lumakras)",
                "Larotrectinib (Vitrakvi)",
                "Entrectinib (Rozlytrek)",
                "Neratinib (Nerlynx)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Pemigatinib (Pemazyre)"
            ],
            "mismatches": [],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Dabrafenib (Tafinlar)",
                "Encorafenib (Braftovi)",
                "Entrectinib (Rozlytrek)",
                "Ipilimumab (Yervoy)",
                "Irinotecan (Camptosar)",
                "Larotrectinib (Vitrakvi)",
                "Neratinib (Nerlynx)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Pemigatinib (Pemazyre)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sotorasib (Lumakras)",
                "Trametinib (Mekinist)",
                "Trifluridine/Tipiracil (Lonsurf)"
            ],
            "TP": 23,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Ramucirumab (Cyramza)",
            "Trifluridine/tipiracil (Lonsurf)",
            "Oxaliplatin (Eloxatin)",
            "Irinotecan (Camptosar)",
            "Fluorouracil (Adrucil)",
            "Capecitabine (Xeloda)",
            "Leucovorin (Wellcovorin)",
            "Aflibercept (Zaltrap)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Regorafenib (Stivarga)",
            "TAS-102 (Lonsurf)",
            "Trifluridine/tipiracil (Lonsurf)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Cobimetinib (Cotellic)",
            "Pegfilgrastim (Neulasta)",
            "Darbepoetin alfa (Aranesp)",
            "Filgrastim (Neupogen)",
            "Ramucirumab (Cyramza)",
            "Sorafenib (Nexavar)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Ramucirumab (Cyramza)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Oxaliplatin (Eloxatin)",
                "Irinotecan (Camptosar)",
                "Fluorouracil (Adrucil)",
                "Capecitabine (Xeloda)",
                "Leucovorin (Wellcovorin)",
                "Aflibercept (Zaltrap)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "TAS-102 (Lonsurf)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Cobimetinib (Cotellic)",
                "Pegfilgrastim (Neulasta)",
                "Darbepoetin alfa (Aranesp)",
                "Filgrastim (Neupogen)"
            ],
            "mismatches": [
                "Sorafenib (Nexavar)"
            ],
            "true_referents": [
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Cobimetinib (Cotellic)",
                "Darbepoetin alfa (Aranesp)",
                "Encorafenib (Braftovi)",
                "Filgrastim (Neupogen)",
                "Fluorouracil (Adrucil)",
                "Irinotecan (Camptosar)",
                "Leucovorin (Wellcovorin)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pegfilgrastim (Neulasta)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "TAS-102 (Lonsurf)",
                "Trifluridine/tipiracil (Lonsurf)"
            ],
            "TP": 21,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Ramucirumab (Cyramza)",
            "Trifluridine/Tipiracil (Lonsurf)",
            "Oxaliplatin (Eloxatin)",
            "Irinotecan (Camptosar)",
            "Fluorouracil (5-FU)",
            "Capecitabine (Xeloda)",
            "S-1 (Teysuno)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Ipilimumab (Yervoy)",
            "Aflibercept (Zaltrap)",
            "Atezolizumab (Tecentriq)",
            "Dostarlimab (Jemperli)",
            "Cobimetinib (Cotellic)",
            "Vemurafenib (Zelboraf)",
            "Lapatinib (Tykerb)",
            "Selumetinib (Koselugo)",
            "Larotrectinib (Vitrakvi)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Ramucirumab (Cyramza)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Oxaliplatin (Eloxatin)",
                "Irinotecan (Camptosar)",
                "Fluorouracil (5-FU)",
                "Capecitabine (Xeloda)",
                "S-1 (Teysuno)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Ipilimumab (Yervoy)",
                "Aflibercept (Zaltrap)",
                "Atezolizumab (Tecentriq)",
                "Dostarlimab (Jemperli)",
                "Cobimetinib (Cotellic)",
                "Vemurafenib (Zelboraf)",
                "Lapatinib (Tykerb)",
                "Selumetinib (Koselugo)",
                "Larotrectinib (Vitrakvi)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aflibercept (Zaltrap)",
                "Atezolizumab (Tecentriq)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Cobimetinib (Cotellic)",
                "Dostarlimab (Jemperli)",
                "Encorafenib (Braftovi)",
                "Fluorouracil (5-FU)",
                "Ipilimumab (Yervoy)",
                "Irinotecan (Camptosar)",
                "Lapatinib (Tykerb)",
                "Larotrectinib (Vitrakvi)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "S-1 (Teysuno)",
                "Selumetinib (Koselugo)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Vemurafenib (Zelboraf)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Fluorouracil (5-FU)",
            "Capecitabine (Xeloda)",
            "Irinotecan (Camptosar)",
            "Oxaliplatin (Eloxatin)",
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Trifluridine/tipiracil (Lonsurf)",
            "Ramucirumab (Cyramza)",
            "Ziv-aflibercept (Zaltrap)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Larotrectinib (Vitrakvi)",
            "Entrectinib (Rozlytrek)",
            "Ipilimumab (Yervoy)",
            "Dostarlimab (Jemperli)",
            "Sotorasib (Lumakras)",
            "Trastuzumab (Herceptin)",
            "Fruquintinib (Fruzaqla)",
            "Tucatinib (Tukysa)",
            "Adagrasib (Krazati)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fluorouracil (5-FU)",
                "Capecitabine (Xeloda)",
                "Irinotecan (Camptosar)",
                "Oxaliplatin (Eloxatin)",
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Ramucirumab (Cyramza)",
                "Ziv-aflibercept (Zaltrap)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Larotrectinib (Vitrakvi)",
                "Entrectinib (Rozlytrek)",
                "Ipilimumab (Yervoy)",
                "Dostarlimab (Jemperli)",
                "Sotorasib (Lumakras)",
                "Trastuzumab (Herceptin)",
                "Fruquintinib (Fruzaqla)",
                "Tucatinib (Tukysa)",
                "Adagrasib (Krazati)"
            ],
            "mismatches": [],
            "true_referents": [
                "Adagrasib (Krazati)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Dostarlimab (Jemperli)",
                "Encorafenib (Braftovi)",
                "Entrectinib (Rozlytrek)",
                "Fluorouracil (5-FU)",
                "Fruquintinib (Fruzaqla)",
                "Ipilimumab (Yervoy)",
                "Irinotecan (Camptosar)",
                "Larotrectinib (Vitrakvi)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sotorasib (Lumakras)",
                "Trastuzumab (Herceptin)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Tucatinib (Tukysa)",
                "Ziv-aflibercept (Zaltrap)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "5-fluorouracil (5-FU)",
            "Bevacizumab (Avastin)",
            "Capecitabine (Xeloda)",
            "Cetuximab (Erbitux)",
            "Irinotecan (Camptosar)",
            "Leucovorin",
            "Oxaliplatin (Eloxatin)",
            "Panitumumab (Vectibix)",
            "Ramucirumab (Cyramza)",
            "Regorafenib (Stivarga)",
            "Trifluridine/tipiracil (Lonsurf)",
            "Ziv-aflibercept (Zaltrap)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Pembrolizumab (Keytruda)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Larotrectinib (Vitrakvi)",
            "Entrectinib (Rozlytrek)",
            "Dostarlimab-gxly (Jemperli)",
            "Cemiplimab-rwlc (Libtayo)",
            "Fam-trastuzumab deruxtecan-nxki (Enhertu)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "5-fluorouracil (5-FU)",
                "Bevacizumab (Avastin)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Irinotecan (Camptosar)",
                "Leucovorin",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Ziv-aflibercept (Zaltrap)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Pembrolizumab (Keytruda)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Larotrectinib (Vitrakvi)",
                "Entrectinib (Rozlytrek)",
                "Dostarlimab-gxly (Jemperli)",
                "Cemiplimab-rwlc (Libtayo)",
                "Fam-trastuzumab deruxtecan-nxki (Enhertu)"
            ],
            "mismatches": [],
            "true_referents": [
                "5-fluorouracil (5-FU)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Cemiplimab-rwlc (Libtayo)",
                "Cetuximab (Erbitux)",
                "Dabrafenib (Tafinlar)",
                "Dostarlimab-gxly (Jemperli)",
                "Encorafenib (Braftovi)",
                "Entrectinib (Rozlytrek)",
                "Fam-trastuzumab deruxtecan-nxki (Enhertu)",
                "Ipilimumab (Yervoy)",
                "Irinotecan (Camptosar)",
                "Larotrectinib (Vitrakvi)",
                "Leucovorin",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Trametinib (Mekinist)",
                "Trifluridine/tipiracil (Lonsurf)",
                "Ziv-aflibercept (Zaltrap)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Bevacizumab (BEV)",
            "Cetuximab (CET)",
            "Panitumumab (PAN)",
            "Regorafenib (REG)",
            "Trifluridine/Tipiracil (TRI/TIP)",
            "Irinotecan (IRI)",
            "Oxaliplatin (OXA)",
            "Capecitabine (CAP)",
            "5-Fluorouracil (5-FU)",
            "Leucovorin (LV)",
            "Nivolumab (NIV)",
            "Pembrolizumab (PEM)",
            "Encorafenib (ENC)",
            "Binimetinib (BIN)",
            "Ramucirumab (RAM)",
            "Ziv-Aflibercept (ZIV-AFL)",
            "Lonsurf (Trifluridine/Tipiracil)",
            "Stivarga (Regorafenib)",
            "Vectibix (Panitumumab)",
            "Erbitux (Cetuximab)",
            "Avastin (Bevacizumab)",
            "Opdivo (Nivolumab)",
            "Keytruda (Pembrolizumab)",
            "Braftovi (Encorafenib) + Mektovi (Binimetinib)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Bevacizumab (BEV)",
                "Cetuximab (CET)",
                "Panitumumab (PAN)",
                "Regorafenib (REG)",
                "Trifluridine/Tipiracil (TRI/TIP)",
                "Irinotecan (IRI)",
                "Oxaliplatin (OXA)",
                "Capecitabine (CAP)",
                "5-Fluorouracil (5-FU)",
                "Leucovorin (LV)",
                "Nivolumab (NIV)",
                "Pembrolizumab (PEM)",
                "Encorafenib (ENC)",
                "Binimetinib (BIN)",
                "Ramucirumab (RAM)",
                "Ziv-Aflibercept (ZIV-AFL)",
                "Lonsurf (Trifluridine/Tipiracil)",
                "Stivarga (Regorafenib)",
                "Vectibix (Panitumumab)",
                "Erbitux (Cetuximab)",
                "Avastin (Bevacizumab)",
                "Opdivo (Nivolumab)",
                "Keytruda (Pembrolizumab)",
                "Braftovi (Encorafenib) + Mektovi (Binimetinib)"
            ],
            "mismatches": [],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Avastin (Bevacizumab)",
                "Bevacizumab (BEV)",
                "Binimetinib (BIN)",
                "Braftovi (Encorafenib) + Mektovi (Binimetinib)",
                "Capecitabine (CAP)",
                "Cetuximab (CET)",
                "Encorafenib (ENC)",
                "Erbitux (Cetuximab)",
                "Irinotecan (IRI)",
                "Keytruda (Pembrolizumab)",
                "Leucovorin (LV)",
                "Lonsurf (Trifluridine/Tipiracil)",
                "Nivolumab (NIV)",
                "Opdivo (Nivolumab)",
                "Oxaliplatin (OXA)",
                "Panitumumab (PAN)",
                "Pembrolizumab (PEM)",
                "Ramucirumab (RAM)",
                "Regorafenib (REG)",
                "Stivarga (Regorafenib)",
                "Trifluridine/Tipiracil (TRI/TIP)",
                "Vectibix (Panitumumab)",
                "Ziv-Aflibercept (ZIV-AFL)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Fluorouracil (5-FU)",
            "Irinotecan (CPT-11)",
            "Oxaliplatin",
            "Capecitabine",
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Trifluridine/Tipiracil (Lonsurf)",
            "Ramucirumab (Cyramza)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Trastuzumab (Herceptin)",
            "Larotrectinib (Vitrakvi)",
            "Entrectinib (Rozlytrek)",
            "Tucatinib (Tukysa)",
            "Dostarlimab (Jemperli)",
            "Sacituzumab Govitecan (Trodelvy)",
            "Loncastuximab Tesirine (Zynlonta)",
            "Fam-Trastuzumab Deruxtecan-nxki (Enhertu)",
            "Tebotelimab",
            "Relatlimab (Opdualag)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fluorouracil (5-FU)",
                "Irinotecan (CPT-11)",
                "Oxaliplatin",
                "Capecitabine",
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Ramucirumab (Cyramza)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Trastuzumab (Herceptin)",
                "Larotrectinib (Vitrakvi)",
                "Entrectinib (Rozlytrek)",
                "Tucatinib (Tukysa)",
                "Dostarlimab (Jemperli)",
                "Sacituzumab Govitecan (Trodelvy)",
                "Loncastuximab Tesirine (Zynlonta)",
                "Fam-Trastuzumab Deruxtecan-nxki (Enhertu)",
                "Tebotelimab",
                "Relatlimab (Opdualag)"
            ],
            "mismatches": [],
            "true_referents": [
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine",
                "Cetuximab (Erbitux)",
                "Dostarlimab (Jemperli)",
                "Encorafenib (Braftovi)",
                "Entrectinib (Rozlytrek)",
                "Fam-Trastuzumab Deruxtecan-nxki (Enhertu)",
                "Fluorouracil (5-FU)",
                "Irinotecan (CPT-11)",
                "Larotrectinib (Vitrakvi)",
                "Loncastuximab Tesirine (Zynlonta)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Relatlimab (Opdualag)",
                "Sacituzumab Govitecan (Trodelvy)",
                "Tebotelimab",
                "Trastuzumab (Herceptin)",
                "Trifluridine/Tipiracil (Lonsurf)",
                "Tucatinib (Tukysa)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "Avastin (Bevacizumab) [R-1]",
            "Erbitux (Cetuximab) [R-2]",
            "Oxaliplatin [R-3]",
            "5-Fluorouracil [R-4]",
            "Leucovorin [R-5]",
            "Capecitabine [R-6]",
            "Irinotecan [R-7]",
            "Rituximab [R-8]",
            "Bendamustine [R-9]",
            "Pembrolizumab [R-10]",
            "Nivolumab [R-11]",
            "Ramucirumab [R-12]",
            "regorafenib [R-13]",
            "Trifluridine/tipiracil [R-14]",
            "Dinutuximab [R-15]",
            "Lapatinib [R-16]",
            "Panitumumab [R-17]",
            "regorafenib [R-18]",
            "mFOLFOX6 [R-19]",
            "FOLFOX [R-20]",
            "FOLFIRI [R-21]",
            "FOLFOXIRI [R-22]",
            "mFOLFOX6 [R-23]",
            "Bevacizumab + FOLFOX [R-24]"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Avastin (Bevacizumab) [R-1]",
                "Erbitux (Cetuximab) [R-2]",
                "Oxaliplatin [R-3]",
                "5-Fluorouracil [R-4]",
                "Leucovorin [R-5]",
                "Capecitabine [R-6]",
                "Irinotecan [R-7]",
                "Rituximab [R-8]",
                "Bendamustine [R-9]",
                "Pembrolizumab [R-10]",
                "Nivolumab [R-11]",
                "Ramucirumab [R-12]",
                "regorafenib [R-13]",
                "Trifluridine/tipiracil [R-14]",
                "Dinutuximab [R-15]",
                "Lapatinib [R-16]",
                "Panitumumab [R-17]",
                "mFOLFOX6 [R-19]",
                "FOLFOX [R-20]",
                "FOLFIRI [R-21]",
                "FOLFOXIRI [R-22]",
                "mFOLFOX6 [R-23]",
                "Bevacizumab + FOLFOX [R-24]"
            ],
            "mismatches": [],
            "true_referents": [
                "5-Fluorouracil [R-4]",
                "Avastin (Bevacizumab) [R-1]",
                "Bendamustine [R-9]",
                "Bevacizumab + FOLFOX [R-24]",
                "Capecitabine [R-6]",
                "Dinutuximab [R-15]",
                "Erbitux (Cetuximab) [R-2]",
                "FOLFIRI [R-21]",
                "FOLFOX [R-20]",
                "FOLFOXIRI [R-22]",
                "Irinotecan [R-7]",
                "Lapatinib [R-16]",
                "Leucovorin [R-5]",
                "Nivolumab [R-11]",
                "Oxaliplatin [R-3]",
                "Panitumumab [R-17]",
                "Pembrolizumab [R-10]",
                "Ramucirumab [R-12]",
                "Rituximab [R-8]",
                "Trifluridine/tipiracil [R-14]",
                "mFOLFOX6 [R-19]",
                "mFOLFOX6 [R-23]",
                "regorafenib [R-13]",
                "regorafenib [R-18]"
            ],
            "TP": 23,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": [
            "5-Fluorouracil (5-FU)",
            "Capecitabine (Xeloda)",
            "Irinotecan (CPT-11)",
            "Oxaliplatin (Eloxatin)",
            "Bevacizumab (Avastin)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Regorafenib (Stivarga)",
            "Aflibercept (Zaltrap)",
            "Ramucirumab (Cyramza)",
            "Trifluridine (TAS-102)",
            "Tipiracil (TAS-102)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Ziv-aflibercept (Zaltrap)",
            "Vedolizumab (Entyvio)",
            "Naloxone (Narcan)",
            "Oxycodone (OxyContin)",
            "Tramadol (Ultram)",
            "Tapentadol (Nucynta)",
            "Floxuridine (FUDR)",
            "Levamisole (Ergamisol)",
            "Pemetrexed (Alimta)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "5-Fluorouracil (5-FU)",
                "Capecitabine (Xeloda)",
                "Irinotecan (CPT-11)",
                "Oxaliplatin (Eloxatin)",
                "Bevacizumab (Avastin)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Regorafenib (Stivarga)",
                "Aflibercept (Zaltrap)",
                "Ramucirumab (Cyramza)",
                "Trifluridine (TAS-102)",
                "Tipiracil (TAS-102)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Ziv-aflibercept (Zaltrap)",
                "Vedolizumab (Entyvio)",
                "Naloxone (Narcan)",
                "Oxycodone (OxyContin)",
                "Tramadol (Ultram)",
                "Tapentadol (Nucynta)",
                "Floxuridine (FUDR)",
                "Levamisole (Ergamisol)",
                "Pemetrexed (Alimta)"
            ],
            "mismatches": [],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Cetuximab (Erbitux)",
                "Encorafenib (Braftovi)",
                "Floxuridine (FUDR)",
                "Irinotecan (CPT-11)",
                "Levamisole (Ergamisol)",
                "Naloxone (Narcan)",
                "Oxaliplatin (Eloxatin)",
                "Oxycodone (OxyContin)",
                "Panitumumab (Vectibix)",
                "Pemetrexed (Alimta)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Tapentadol (Nucynta)",
                "Tipiracil (TAS-102)",
                "Tramadol (Ultram)",
                "Trifluridine (TAS-102)",
                "Vedolizumab (Entyvio)",
                "Ziv-aflibercept (Zaltrap)"
            ],
            "TP": 23,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for colorectal cancer",
        "domain": "medicine",
        "response": "error when calling model 'amazon.titan-text-express-v1': empty response",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    }
]