[
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Pembrolizumab (KEYTRUDA)",
            "Nivolumab (OPDIVO)",
            "Atezolizumab (TECENTRIQ)",
            "Durvalumab (IMFINZI)",
            "Cetuximab (ERBITUX)",
            "Docetaxel",
            "Osimertinib (TAGRISSO)",
            "Alectinib (ALECensa)",
            "Crizotinib (XALKORI)",
            "Necitumumab (PORTOLOM)",
            "Ramucirumab (CYRAMZA)",
            "Dacomitinib (VIZIMPRO)",
            "Amivantamab (Rybrevant)",
            "Selpercatinib (RETACRIT)",
            "Capmatinib (EXKIVITY)",
            "Brentuximab vedotin (ADCETRIS)",
            "Ipilimumab (YERVOY)",
            "Afatinib (GIOTRIF)",
            "Neratinib (Nerlynx)",
            "Larotrectinib (VITRAKVI)",
            "Tepotinib (TAK-788)",
            "Entrectinib (Rozlytrek)",
            "Sacituzumab govitecan (Trodelvy)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Pembrolizumab (KEYTRUDA)",
                "Nivolumab (OPDIVO)",
                "Atezolizumab (TECENTRIQ)",
                "Durvalumab (IMFINZI)",
                "Docetaxel",
                "Osimertinib (TAGRISSO)",
                "Alectinib (ALECensa)",
                "Crizotinib (XALKORI)",
                "Ramucirumab (CYRAMZA)",
                "Dacomitinib (VIZIMPRO)",
                "Amivantamab (Rybrevant)",
                "Ipilimumab (YERVOY)",
                "Entrectinib (Rozlytrek)"
            ],
            "mismatches": [
                "Cetuximab (ERBITUX)",
                "Necitumumab (PORTOLOM)",
                "Selpercatinib (RETACRIT)",
                "Capmatinib (EXKIVITY)",
                "Brentuximab vedotin (ADCETRIS)",
                "Afatinib (GIOTRIF)",
                "Neratinib (Nerlynx)",
                "Larotrectinib (VITRAKVI)",
                "Tepotinib (TAK-788)",
                "Sacituzumab govitecan (Trodelvy)"
            ],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Amivantamab-vmjw",
                "Atezolizumab",
                "Augtyro (Repotrectinib)",
                "Binimetinib",
                "Capmatinib Hydrochloride",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dacomitinib",
                "Docetaxel",
                "Durvalumab",
                "Enhertu (Fam-Trastuzumab Deruxtecan-nxki)",
                "Entrectinib",
                "Gefitinib",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Ipilimumab",
                "Keytruda (Pembrolizumab)",
                "Necitumumab",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Portrazza (Necitumumab)",
                "Ramucirumab",
                "Repotrectinib",
                "Retevmo (Selpercatinib)",
                "Rozlytrek (Entrectinib)",
                "Rybrevant (Amivantamab-vmjw)",
                "Selpercatinib",
                "Tagrisso (Osimertinib Mesylate)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Tepmetko (Tepotinib Hydrochloride)",
                "Tepotinib Hydrochloride",
                "Vizimpro (Dacomitinib)",
                "Xalkori (Crizotinib)",
                "Yervoy (Ipilimumab)"
            ],
            "TP": 13,
            "FP": 10,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "phi-v4",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Pembrolizumab (KEYTRUDA)",
            "Nivolumab (OPDIVO)",
            "Atezolizumab (TECENTRIQ)",
            "Durvalumab (IMFINZI)",
            "Sintilimab (TUFINTRUM)",
            "Ceritinib (ZENKERBA)",
            "Alectinib (ALEMTRA)",
            "Crizotinib (XALKORI)",
            "Lorlatinib (LORLATAB)",
            "Osimertinib (TAGRISSO)",
            "Erlotinib (Tarceva)",
            "Gefitinib (IRESSA)",
            "Afatinib (GOTIFULIN)",
            "Cetuximab (ERBITUX)",
            "Ramucirumab (CYRAMZA)",
            "Bevacizumab (AVASTIN)",
            "Pemetrexed (ALIMTA)",
            "Docetaxel (DOCETAXEL)",
            "Paclitaxel (PACLITAXEL)",
            "Vinorelbine (NIVARINE)",
            "Etoposide (ETOPOSPIDE)",
            "Cisplatin (CISPLATIN)",
            "Carboplatin (CARBOPLATIN)",
            "Pazopanib (VOTRIENT)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Pembrolizumab",
                "Nivolumab",
                "Atezolizumab",
                "Durvalumab",
                "Ceritinib",
                "Alectinib",
                "Crizotinib",
                "Lorlatinib",
                "Osimertinib Mesylate",
                "Gefitinib",
                "Afatinib Dimaleate",
                "Ramucirumab",
                "Bevacizumab",
                "Pemetrexed Disodium",
                "Docetaxel",
                "Paclitaxel",
                "Etoposide"
            ],
            "mismatches": [
                "Sintilimab (TUFINTRUM)",
                "Erlotinib (Tarceva)",
                "Cetuximab (ERBITUX)",
                "Vinorelbine (NIVARINE)",
                "Cisplatin (CISPLATIN)",
                "Carboplatin (CARBOPLATIN)",
                "Pazopanib (VOTRIENT)"
            ],
            "true_referents": [
                "Afatinib Dimaleate",
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alymsys (Bevacizumab)",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Etopophos (Etoposide Phosphate)",
                "Etoposide",
                "Etoposide Phosphate",
                "Gefitinib",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Ramucirumab",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Vinorelbine Tartrate",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 17,
            "FP": 7,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Cisplatin (CDDP)",
            "Carboplatin",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)",
            "Gemcitabine (Gemzar)",
            "Pemetrexed (Alimta)",
            "Erlotinib (Tarceva)",
            "Crizotinib (Xalkori)",
            "Atezolizumab (Tecentriq)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Durvalumab (Imfinzi)",
            "Osimertinib (Tagrisso)",
            "Alectinib (Alecensa)",
            "Ceritinib (Zykadia)",
            "Brigatinib (Alunbrig)",
            "Lorlatinib (Lorbrena)",
            "Afatinib (Gilotrif)",
            "Bevacizumab (Avastin)",
            "Ramucirumab (Cyramza)",
            "Nintedanib (Ofev)",
            "Rucaparib (Rubraca)",
            "Olaparib (Lynparza)",
            "Dabrafenib (Tafinlar)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Docetaxel (Taxotere)",
                "Gemcitabine (Gemzar)",
                "Pemetrexed (Alimta)",
                "Erlotinib (Tarceva)",
                "Crizotinib (Xalkori)",
                "Atezolizumab (Tecentriq)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Durvalumab (Imfinzi)",
                "Osimertinib (Tagrisso)",
                "Alectinib (Alecensa)",
                "Ceritinib (Zykadia)",
                "Brigatinib (Alunbrig)",
                "Lorlatinib (Lorbrena)",
                "Bevacizumab (Avastin)",
                "Ramucirumab (Cyramza)",
                "Dabrafenib (Tafinlar)"
            ],
            "mismatches": [
                "Cisplatin (CDDP)",
                "Carboplatin",
                "Paclitaxel (Taxol)",
                "Afatinib (Gilotrif)",
                "Nintedanib (Ofev)",
                "Rucaparib (Rubraca)",
                "Olaparib (Lynparza)"
            ],
            "true_referents": [
                "Adagrasib",
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alunbrig (Brigatinib)",
                "Alymsys (Bevacizumab)",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dabrafenib Mesylate",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Ramucirumab",
                "Tafinlar (Dabrafenib Mesylate)",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Vizimpro (Dacomitinib)",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 17,
            "FP": 7,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gemma-3",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Cisplatin (CIS)",
            "Carboplatin (CAR)",
            "Paclitaxel (PAC)",
            "Docetaxel (DOC)",
            "Gemcitabine (GEM)",
            "Vinorelbine (VIN)",
            "Pemetrexed (PEM)",
            "Erlotinib (ERL)",
            "Gefitinib (GEF)",
            "Afatinib (AFA)",
            "Osimertinib (OSI)",
            "Dacomitinib (DAC)",
            "Bevacizumab (BEV)",
            "Ramucirumab (RAM)",
            "Pembrolizumab (PEMB)",
            "Nivolumab (NIV)",
            "Atezolizumab (ATE)",
            "Durvalumab (DUR)",
            "Cemiplimab (CEM)",
            "Sotorasib (SOT)",
            "Mobocertinib (MOB)",
            "Amivantamab (AMI)",
            "Capmatinib (CAP)",
            "Selpercatinib (SEL)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Paclitaxel",
                "Docetaxel",
                "Erlotinib",
                "Gefitinib",
                "Afatinib",
                "Osimertinib",
                "Dacomitinib",
                "Bevacizumab",
                "Ramucirumab",
                "Pembrolizumab",
                "Nivolumab",
                "Atezolizumab",
                "Durvalumab",
                "Sotorasib",
                "Amivantamab",
                "Capmatinib",
                "Selpercatinib"
            ],
            "mismatches": [
                "Cisplatin",
                "Carboplatin",
                "Gemcitabine",
                "Vinorelbine",
                "Pemetrexed",
                "Cemiplimab",
                "Mobocertinib"
            ],
            "true_referents": [
                "Afatinib Dimaleate",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Amivantamab-vmjw",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Capmatinib Hydrochloride",
                "Cemiplimab-rwlc",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dacomitinib",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Imfinzi (Durvalumab)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lumakras (Sotorasib)",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Ramucirumab",
                "Repotrectinib",
                "Retevmo (Selpercatinib)",
                "Rybrevant (Amivantamab-vmjw)",
                "Selpercatinib",
                "Sotorasib",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Vinorelbine Tartrate",
                "Vizimpro (Dacomitinib)",
                "Zirabev (Bevacizumab)"
            ],
            "TP": 17,
            "FP": 7,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Gefitinib (IRESSA)",
            "Erlotinib (TARCEVA)",
            "Afatinib (GILOTRIF)",
            "Osimertinib (TAGRISSO)",
            "Alectinib (ALECENSA)",
            "Ceritinib (ZYKADIA)",
            "Crizotinib (XALKORI)",
            "Brigatinib (ALUNBRIG)",
            "Dabrafenib (TAFINLAR)",
            "Trametinib (MEKINIST)",
            "Pembrolizumab (KEYTRUDA)",
            "Nivolumab (OPDIVO)",
            "Atezolizumab (TECENTRIQ)",
            "Durvalumab (IMFINZI)",
            "Lorlatinib (LORBRENA)",
            "Sotorasib (LUMAKRAS)",
            "Capmatinib (TABRECTA)",
            "Tepotinib (TEPMETKO)",
            "Selpercatinib (RETEVMO)",
            "Pralsetinib (GAVRETO)",
            "Amivantamab (RYBREVANT)",
            "Mobocertinib (EXKIVITY)",
            "Ramucirumab (CYRAMZA)",
            "Entrectinib (ROZLYTREK)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Gefitinib (IRESSA)",
                "Erlotinib (TARCEVA)",
                "Afatinib (GILOTRIF)",
                "Osimertinib (TAGRISSO)",
                "Alectinib (ALECENSA)",
                "Ceritinib (ZYKADIA)",
                "Crizotinib (XALKORI)",
                "Brigatinib (ALUNBRIG)",
                "Dabrafenib (TAFINLAR)",
                "Trametinib (MEKINIST)",
                "Pembrolizumab (KEYTRUDA)",
                "Nivolumab (OPDIVO)",
                "Atezolizumab (TECENTRIQ)",
                "Durvalumab (IMFINZI)",
                "Lorlatinib (LORBRENA)",
                "Sotorasib (LUMAKRAS)",
                "Capmatinib (TABRECTA)",
                "Tepotinib (TEPMETKO)",
                "Selpercatinib (RETEVMO)",
                "Pralsetinib (GAVRETO)",
                "Amivantamab (RYBREVANT)",
                "Ramucirumab (CYRAMZA)",
                "Entrectinib (ROZLYTREK)"
            ],
            "mismatches": [
                "Mobocertinib (EXKIVITY)"
            ],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alunbrig (Brigatinib)",
                "Amivantamab-vmjw",
                "Atezolizumab",
                "Augtyro (Repotrectinib)",
                "Binimetinib",
                "Brigatinib",
                "Capmatinib Hydrochloride",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dabrafenib Mesylate",
                "Durvalumab",
                "Entrectinib",
                "Erlotinib Hydrochloride",
                "Gavreto (Pralsetinib)",
                "Gefitinib",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Lumakras (Sotorasib)",
                "Mekinist (Trametinib Dimethyl Sulfoxide)",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Pembrolizumab",
                "Pralsetinib",
                "Ramucirumab",
                "Retevmo (Selpercatinib)",
                "Rozlytrek (Entrectinib)",
                "Rybrevant (Amivantamab-vmjw)",
                "Selpercatinib",
                "Sotorasib",
                "Tabrecta (Capmatinib Hydrochloride)",
                "Tafinlar (Dabrafenib Mesylate)",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Tecentriq (Atezolizumab)",
                "Tepmetko (Tepotinib Hydrochloride)",
                "Tepotinib Hydrochloride",
                "Trametinib Dimethyl Sulfoxide",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Erlotinib (Tarceva)",
            "Gefitinib (Iressa)",
            "Afatinib (Gilotrif)",
            "Osimertinib (Tagrisso)",
            "Crizotinib (Xalkori)",
            "Alectinib (Alecensa)",
            "Ceritinib (Zykadia)",
            "Brigatinib (Alunbrig)",
            "Lorlatinib (Lorbrena)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Durvalumab (Imfinzi)",
            "Atezolizumab (Tecentriq)",
            "Ramucirumab (Cyramza)",
            "Docetaxel (Taxotere)",
            "Paclitaxel (Taxol)",
            "Vinorelbine (Navelbine)",
            "Bevacizumab (Avastin)",
            "Trametinib (Mekinist)",
            "Dabrafenib (Tafinlar)",
            "Lorlatinib (Lorbrena)",
            "Entrectinib (Rozlytrek)",
            "Selpercatinib (Lumakras)",
            "Tazemetostat (Tazverik)",
            "Talazoparib (Talzenna)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Erlotinib (Tarceva)",
                "Gefitinib (Iressa)",
                "Afatinib (Gilotrif)",
                "Osimertinib (Tagrisso)",
                "Crizotinib (Xalkori)",
                "Alectinib (Alecensa)",
                "Ceritinib (Zykadia)",
                "Brigatinib (Alunbrig)",
                "Lorlatinib (Lorbrena)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Durvalumab (Imfinzi)",
                "Atezolizumab (Tecentriq)",
                "Ramucirumab (Cyramza)",
                "Docetaxel (Taxotere)",
                "Bevacizumab (Avastin)",
                "Trametinib (Mekinist)",
                "Dabrafenib (Tafinlar)",
                "Entrectinib (Rozlytrek)"
            ],
            "mismatches": [
                "Paclitaxel (Taxol)",
                "Vinorelbine (Navelbine)",
                "Selpercatinib (Lumakras)",
                "Tazemetostat (Tazverik)",
                "Talazoparib (Talzenna)"
            ],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alunbrig (Brigatinib)",
                "Alymsys (Bevacizumab)",
                "Atezolizumab",
                "Augtyro (Repotrectinib)",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dabrafenib Mesylate",
                "Docetaxel",
                "Durvalumab",
                "Entrectinib",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lazcluze (Lazertinib Mesylate Hydrate)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Mekinist (Trametinib Dimethyl Sulfoxide)",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Ramucirumab",
                "Retevmo (Selpercatinib)",
                "Rozlytrek (Entrectinib)",
                "Selpercatinib",
                "Tafinlar (Dabrafenib Mesylate)",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Trametinib Dimethyl Sulfoxide",
                "Vinorelbine Tartrate",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 19,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4-32k",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Tarceva (Erlotinib)",
            "Tagrisso (Osimertinib)",
            "Xalkori (Crizotinib)",
            "Alecensa (Alectinib)",
            "Alunbrig (Brigatinib)",
            "Zykadia (Ceritinib)",
            "Opdivo (Nivolumab)",
            "Keytruda (Pembrolizumab)",
            "Tecentriq (Atezolizumab)",
            "Imfinzi (Durvalumab)",
            "Avastin (Bevacizumab)",
            "Cyramza (Ramucirumab)",
            "Gilotrif (Afatinib)",
            "Iressa (Gefitinib)",
            "Vizimpro (Dacomitinib)",
            "Portrazza (Necitumumab)",
            "Adcetris (Brentuximab vedotin)",
            "Zejula (Niraparib)",
            "Lynparza (Olaparib)",
            "Rubraca (Rucaparib)",
            "Yervoy (Ipilimumab)",
            "Retevmo (Selpercatinib)",
            "Gavreto (Pralsetinib)",
            "Lorbrena (Lorlatinib)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alecensa (Alectinib)",
                "Alunbrig (Brigatinib)",
                "Zykadia (Ceritinib)",
                "Xalkori (Crizotinib)",
                "Opdivo (Nivolumab)",
                "Keytruda (Pembrolizumab)",
                "Tecentriq (Atezolizumab)",
                "Imfinzi (Durvalumab)",
                "Avastin (Bevacizumab)",
                "Cyramza (Ramucirumab)",
                "Yervoy (Ipilimumab)",
                "Retevmo (Selpercatinib)",
                "Gavreto (Pralsetinib)",
                "Lorbrena (Lorlatinib)"
            ],
            "mismatches": [
                "Tarceva (Erlotinib)",
                "Tagrisso (Osimertinib)",
                "Gilotrif (Afatinib)",
                "Iressa (Gefitinib)",
                "Vizimpro (Dacomitinib)",
                "Portrazza (Necitumumab)",
                "Adcetris (Brentuximab vedotin)",
                "Zejula (Niraparib)",
                "Lynparza (Olaparib)",
                "Rubraca (Rucaparib)"
            ],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alunbrig (Brigatinib)",
                "Alymsys (Bevacizumab)",
                "Atezolizumab",
                "Augtyro (Repotrectinib)",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dacomitinib",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gavreto (Pralsetinib)",
                "Gefitinib",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Ipilimumab",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lazcluze (Lazertinib Mesylate Hydrate)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Necitumumab",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Portrazza (Necitumumab)",
                "Pralsetinib",
                "Ramucirumab",
                "Retevmo (Selpercatinib)",
                "Selpercatinib",
                "Tabrecta (Capmatinib Hydrochloride)",
                "Tafinlar (Dabrafenib Mesylate)",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Tecentriq Hybreza (Atezolizumab and Hyaluronidase-tqjs)",
                "Vizimpro (Dacomitinib)",
                "Xalkori (Crizotinib)",
                "Yervoy (Ipilimumab)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 14,
            "FP": 10,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Atezolizumab (Tecentriq)",
            "Durvalumab (Imfinzi)",
            "Alectinib (Alecensa)",
            "Crizotinib (Xalkori)",
            "Ceritinib (Zykadia)",
            "Osimertinib (Tagrisso)",
            "Erlotinib (Tarceva)",
            "Afatinib (Gilotrif)",
            "Gefitinib (Iressa)",
            "Brigatinib (Alunbrig)",
            "Bevacizumab (Avastin)",
            "Ramucirumab (Cyramza)",
            "Atezolizumab (Tecentriq)",
            "Necitumumab (Portrazza)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Atezolizumab (Tecentriq)",
            "Durvalumab (Imfinzi)",
            "Crizotinib (Xalkori)",
            "Ceritinib (Zykadia)",
            "Osimertinib (Tagrisso)",
            "Erlotinib (Tarceva)",
            "Afatinib (Gilotrif)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Atezolizumab (Tecentriq)",
                "Durvalumab (Imfinzi)",
                "Alectinib (Alecensa)",
                "Crizotinib (Xalkori)",
                "Ceritinib (Zykadia)",
                "Osimertinib (Tagrisso)",
                "Erlotinib (Tarceva)",
                "Afatinib (Gilotrif)",
                "Gefitinib (Iressa)",
                "Brigatinib (Alunbrig)",
                "Bevacizumab (Avastin)",
                "Ramucirumab (Cyramza)",
                "Necitumumab (Portrazza)"
            ],
            "mismatches": [],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alunbrig (Brigatinib)",
                "Alymsys (Bevacizumab)",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Necitumumab",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Pembrolizumab",
                "Portrazza (Necitumumab)",
                "Ramucirumab",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Tecentriq (Atezolizumab)",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 15,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "o1-mini",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Cisplatin (CDDP)",
            "Carboplatin (CBDCA)",
            "Paclitaxel (PTX)",
            "Docetaxel (DTX)",
            "Pemetrexed (PEM)",
            "Vinorelbine (VNR)",
            "Gemcitabine (GEM)",
            "Topotecan",
            "Etoposide (VP-16)",
            "Erlotinib (ERL)",
            "Gefitinib (GEF)",
            "Afatinib (AFA)",
            "Osimertinib (OSI)",
            "Crizotinib (CRIZ)",
            "Alectinib (ALC)",
            "Brigatinib (BRIG)",
            "Ceritinib (CER)",
            "Lorlatinib (LRL)",
            "Bevacizumab (BEV)",
            "Ramucirumab (RAM)",
            "Nivolumab (NIVO)",
            "Pembrolizumab (PEMBRO)",
            "Atezolizumab (ATEZO)",
            "Durvalumab (DURV)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Paclitaxel",
                "Docetaxel",
                "Etoposide",
                "Erlotinib",
                "Gefitinib",
                "Afatinib",
                "Osimertinib",
                "Crizotinib",
                "Alectinib",
                "Brigatinib",
                "Lorlatinib",
                "Bevacizumab",
                "Ramucirumab",
                "Nivolumab",
                "Pembrolizumab",
                "Atezolizumab",
                "Durvalumab"
            ],
            "mismatches": [
                "Cisplatin (CDDP)",
                "Carboplatin (CBDCA)",
                "Pemetrexed (PEM)",
                "Vinorelbine (VNR)",
                "Gemcitabine (GEM)",
                "Topotecan",
                "Ceritinib (CER)"
            ],
            "true_referents": [
                "Afatinib Dimaleate",
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alunbrig (Brigatinib)",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Etopophos (Etoposide Phosphate)",
                "Etoposide",
                "Etoposide Phosphate",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Imfinzi (Durvalumab)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Ramucirumab",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Topotecan Hydrochloride",
                "Vinorelbine Tartrate",
                "Xalkori (Crizotinib)",
                "Zirabev (Bevacizumab)"
            ],
            "TP": 17,
            "FP": 7,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Erlotinib (Tarceva)",
            "Gefitinib (Iressa)",
            "Afatinib (Gilotrif)",
            "Osimertinib (Tagrisso)",
            "Crizotinib (Xalkori)",
            "Ceritinib (Zykadia)",
            "Alectinib (Alecensa)",
            "Brigatinib (Alunbrig)",
            "Lorlatinib (Lorbrena)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Atezolizumab (Tecentriq)",
            "Durvalumab (Imfinzi)",
            "Ramucirumab (Cyramza)",
            "Bevacizumab (Avastin)",
            "Necitumumab (Portrazza)",
            "Pemetrexed (Alimta)",
            "Docetaxel (Taxotere)",
            "Gemcitabine (Gemzar)",
            "Paclitaxel (Taxol)",
            "Vinorelbine (Navelbine)",
            "Topotecan (Hycamtin)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Erlotinib (Tarceva)",
                "Gefitinib (Iressa)",
                "Afatinib (Gilotrif)",
                "Osimertinib (Tagrisso)",
                "Crizotinib (Xalkori)",
                "Ceritinib (Zykadia)",
                "Alectinib (Alecensa)",
                "Brigatinib (Alunbrig)",
                "Lorlatinib (Lorbrena)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Atezolizumab (Tecentriq)",
                "Durvalumab (Imfinzi)",
                "Ramucirumab (Cyramza)",
                "Bevacizumab (Avastin)",
                "Necitumumab (Portrazza)",
                "Pemetrexed (Alimta)",
                "Docetaxel (Taxotere)",
                "Gemcitabine (Gemzar)"
            ],
            "mismatches": [
                "Paclitaxel (Taxol)",
                "Vinorelbine (Navelbine)",
                "Topotecan (Hycamtin)"
            ],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alunbrig (Brigatinib)",
                "Alymsys (Bevacizumab)",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dabrafenib Mesylate",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Gilotrif (Afatinib Dimaleate)",
                "Hycamtin (Topotecan Hydrochloride)",
                "Imfinzi (Durvalumab)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Mekinist (Trametinib Dimethyl Sulfoxide)",
                "Necitumumab",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Portrazza (Necitumumab)",
                "Ramucirumab",
                "Tafinlar (Dabrafenib Mesylate)",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Topotecan Hydrochloride",
                "Trametinib Dimethyl Sulfoxide",
                "Vinorelbine Tartrate",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Alectinib (Alecensa)",
            "Atezolizumab (Tecentriq)",
            "Bevacizumab (Avastin)",
            "Brigatinib (Alunbrig)",
            "Capmatinib (Tabrecta)",
            "Ceritinib (Zykadia)",
            "Crizotinib (Xalkori)",
            "Dabrafenib (Tafinlar)",
            "Dacomitinib (Vizimpro)",
            "Docetaxel (Taxotere)",
            "Durvalumab (Imfinzi)",
            "Erlotinib (Tarceva)",
            "Gefitinib (Iressa)",
            "Gemcitabine (Gemzar)",
            "Ipilimumab (Yervoy)",
            "Lorlatinib (Lorbrena)",
            "Necitumumab (Portrazza)",
            "Nivolumab (Opdivo)",
            "Osimertinib (Tagrisso)",
            "Paclitaxel (Taxol)",
            "Pembrolizumab (Keytruda)",
            "Pemetrexed (Alimta)",
            "Ramucirumab (Cyramza)",
            "Selpercatinib (Retevmo)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alectinib (Alecensa)",
                "Atezolizumab (Tecentriq)",
                "Bevacizumab (Avastin)",
                "Brigatinib (Alunbrig)",
                "Capmatinib (Tabrecta)",
                "Ceritinib (Zykadia)",
                "Crizotinib (Xalkori)",
                "Dabrafenib (Tafinlar)",
                "Dacomitinib (Vizimpro)",
                "Docetaxel (Taxotere)",
                "Durvalumab (Imfinzi)",
                "Erlotinib (Tarceva)",
                "Gefitinib (Iressa)",
                "Gemcitabine (Gemzar)",
                "Ipilimumab (Yervoy)",
                "Lorlatinib (Lorbrena)",
                "Necitumumab (Portrazza)",
                "Nivolumab (Opdivo)",
                "Osimertinib (Tagrisso)",
                "Pembrolizumab (Keytruda)",
                "Pemetrexed (Alimta)",
                "Ramucirumab (Cyramza)",
                "Selpercatinib (Retevmo)"
            ],
            "mismatches": [
                "Paclitaxel (Taxol)"
            ],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alunbrig (Brigatinib)",
                "Alymsys (Bevacizumab)",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Capmatinib Hydrochloride",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dabrafenib Mesylate",
                "Dacomitinib",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Ipilimumab",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Necitumumab",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Portrazza (Necitumumab)",
                "Ramucirumab",
                "Retevmo (Selpercatinib)",
                "Selpercatinib",
                "Tabrecta (Capmatinib Hydrochloride)",
                "Tafinlar (Dabrafenib Mesylate)",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Tepmetko (Tepotinib Hydrochloride)",
                "Vizimpro (Dacomitinib)",
                "Xalkori (Crizotinib)",
                "Yervoy (Ipilimumab)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Gefitinib (Iressa)",
            "Erlotinib (Tarceva)",
            "Afatinib (Gilotrif)",
            "Osimertinib (Tagrisso)",
            "Crizotinib (Xalkori)",
            "Ceritinib (Zykadia)",
            "Alectinib (Alecensa)",
            "Brigatinib (Alunbrig)",
            "Lorlatinib (Lorviqua)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Atezolizumab (Tecentriq)",
            "Durvalumab (Imfinzi)",
            "Ramucirumab (Cyramza)",
            "Necitumumab (Portrazza)",
            "Pemetrexed (Alimta)",
            "Gemcitabine (Gemzar)",
            "Vinorelbine (Navelbine)",
            "Docetaxel (Taxotere)",
            "Paclitaxel (Taxol)",
            "Nab-paclitaxel (Abraxane)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Gefitinib (Iressa)",
                "Erlotinib (Tarceva)",
                "Osimertinib (Tagrisso)",
                "Crizotinib (Xalkori)",
                "Ceritinib (Zykadia)",
                "Alectinib (Alecensa)",
                "Brigatinib (Alunbrig)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Atezolizumab (Tecentriq)",
                "Durvalumab (Imfinzi)",
                "Ramucirumab (Cyramza)",
                "Necitumumab (Portrazza)",
                "Pemetrexed (Alimta)",
                "Docetaxel (Taxotere)"
            ],
            "mismatches": [
                "Afatinib (Gilotrif)",
                "Lorlatinib (Lorviqua)",
                "Gemcitabine (Gemzar)",
                "Vinorelbine (Navelbine)",
                "Paclitaxel (Taxol)",
                "Nab-paclitaxel (Abraxane)"
            ],
            "true_referents": [
                "Abraxane (Paclitaxel Albumin-stabilized Nanoparticle Formulation)",
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alunbrig (Brigatinib)",
                "Atezolizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dabrafenib Mesylate",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Gilotrif (Afatinib Dimaleate)",
                "Imfinzi (Durvalumab)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Mekinist (Trametinib Dimethyl Sulfoxide)",
                "Necitumumab",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Portrazza (Necitumumab)",
                "Ramucirumab",
                "Tafinlar (Dabrafenib Mesylate)",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Trametinib Dimethyl Sulfoxide",
                "Vinorelbine Tartrate",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 17,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Osimertinib (OSIM)",
            "Erlotinib (ERLO)",
            "Gefitinib (GEFI)",
            "Afatinib (AFAT)",
            "Alectinib (ALEC)",
            "Brigatinib (BRIG)",
            "Ceritinib (CERI)",
            "Crizotinib (CRIZ)",
            "Dacomitinib (DACO)",
            "Lorlatinib (LORL)",
            "Necitumumab (NECI)",
            "Nivolumab (NIVO)",
            "Pembrolizumab (PEMB)",
            "Ramucirumab (RAMU)",
            "Atezolizumab (ATEZ)",
            "Durvalumab (DURV)",
            "Avelumab (AVEL)",
            "Bevacizumab (BEVA)",
            "Paclitaxel (PACL)",
            "Carboplatin (CARB)",
            "Cisplatin (CISP)",
            "Docetaxel (DOCE)",
            "Gemcitabine (GEMC)",
            "Pemetrexed (PEME)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Osimertinib (OSIM)",
                "Erlotinib (ERLO)",
                "Gefitinib (GEFI)",
                "Alectinib (ALEC)",
                "Brigatinib (BRIG)",
                "Ceritinib (CERI)",
                "Crizotinib (CRIZ)",
                "Dacomitinib (DACO)",
                "Lorlatinib (LORL)",
                "Necitumumab (NECI)",
                "Nivolumab (NIVO)",
                "Pembrolizumab (PEMB)",
                "Ramucirumab (RAMU)",
                "Atezolizumab (ATEZ)",
                "Durvalumab (DURV)",
                "Bevacizumab (BEVA)",
                "Paclitaxel (PACL)",
                "Docetaxel (DOCE)"
            ],
            "mismatches": [
                "Afatinib (AFAT)",
                "Avelumab (AVEL)",
                "Carboplatin (CARB)",
                "Cisplatin (CISP)",
                "Gemcitabine (GEMC)",
                "Pemetrexed (PEME)"
            ],
            "true_referents": [
                "Afatinib Dimaleate",
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alunbrig (Brigatinib)",
                "Atezolizumab",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Cyramza (Ramucirumab)",
                "Dacomitinib",
                "Docetaxel",
                "Durvalumab",
                "Erlotinib Hydrochloride",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Imfinzi (Durvalumab)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lorbrena (Lorlatinib)",
                "Lorlatinib",
                "Necitumumab",
                "Nivolumab",
                "Opdivo (Nivolumab)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Pembrolizumab",
                "Pemetrexed Disodium",
                "Portrazza (Necitumumab)",
                "Ramucirumab",
                "Tagrisso (Osimertinib Mesylate)",
                "Tarceva (Erlotinib Hydrochloride)",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Vizimpro (Dacomitinib)",
                "Xalkori (Crizotinib)",
                "Zirabev (Bevacizumab)"
            ],
            "TP": 18,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Alimta (pemetrexed)",
            "Alecensa (alectinib)",
            "AstraZeneca's Tagrisso (osimertinib)",
            "Avastin (bevacizumab)",
            "Braftovi (encorafenib)",
            "Ceritinib",
            "Combination of paclitaxel and carboplatin",
            "Combination of pemetrexed and cisplatin",
            "Combination of pemetrexed and carboplatin",
            "Combination of vinorelbine and cisplatin",
            "Combination of vinorelbine and carboplatin",
            "Combination of gemcitabine and cisplatin",
            "Combination of gemcitabine and carboplatin",
            "Combination of docetaxel and cisplatin",
            "Combination of docetaxel and carboplatin",
            "Combination of paclitaxel and cisplatin",
            "Combination of paclitaxel and vinorelbine",
            "Combination of vinblastine and cisplatin",
            "Combination of vinblastine and carboplatin",
            "Combination of vinblastine and vinorelbine",
            "Combination of vinblastine and paclitaxel",
            "Combination of vinblastine and docetaxel",
            "Combination of vinblastine and gemcitabine",
            "Combination of vinblastine and pemetrexed"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alecensa (alectinib)",
                "Avastin (bevacizumab)",
                "Braftovi (encorafenib)",
                "Ceritinib"
            ],
            "mismatches": [
                "Alimta (pemetrexed)",
                "AstraZeneca's Tagrisso (osimertinib)",
                "Combination of paclitaxel and carboplatin",
                "Combination of pemetrexed and cisplatin",
                "Combination of pemetrexed and carboplatin",
                "Combination of vinorelbine and cisplatin",
                "Combination of vinorelbine and carboplatin",
                "Combination of gemcitabine and cisplatin",
                "Combination of gemcitabine and carboplatin",
                "Combination of docetaxel and cisplatin",
                "Combination of docetaxel and carboplatin",
                "Combination of paclitaxel and cisplatin",
                "Combination of paclitaxel and vinorelbine",
                "Combination of vinblastine and cisplatin",
                "Combination of vinblastine and carboplatin",
                "Combination of vinblastine and vinorelbine",
                "Combination of vinblastine and paclitaxel",
                "Combination of vinblastine and docetaxel",
                "Combination of vinblastine and gemcitabine",
                "Combination of vinblastine and pemetrexed"
            ],
            "true_referents": [
                "Alecensa (Alectinib)",
                "Alectinib",
                "Alimta (Pemetrexed Disodium)",
                "Alymsys (Bevacizumab)",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Braftovi (Encorafenib)",
                "Ceritinib",
                "Crizotinib",
                "Docetaxel",
                "Encorafenib",
                "Fam-Trastuzumab Deruxtecan-nxki",
                "Gefitinib",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Iressa (Gefitinib)",
                "Libtayo (Cemiplimab-rwlc)",
                "Osimertinib Mesylate",
                "Paclitaxel",
                "Paclitaxel Albumin-stabilized Nanoparticle Formulation",
                "Pemetrexed Disodium",
                "Tagrisso (Osimertinib Mesylate)",
                "Taxotere (Docetaxel)",
                "Vinorelbine Tartrate"
            ],
            "TP": 4,
            "FP": 20,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": [
            "Afatinib (BIBW 2992)",
            "Ceritinib (LK-79)",
            "Crizotinib (PF-02341066)",
            "Afatinib dimaleate (BIBW 2992U)",
            "Dacomitinib (PF-00299804)",
            "Nintedanib (BIBF 1120)",
            "Crizotinib (PF-02341066)",
            "Vandetanib (ZD-6474)",
            "Ceritinib (LK-79)",
            "Selumetinib (AZD6244)",
            "Motesanib (AMG 706)",
            "Sorafenib (BAY 43-9006)",
            "Vemurafenib (PLX-4032)",
            "Dabrafenib (GSK-2118436A)",
            "Trametinib (GSK-1120212)",
            "Cobimetinib (G-019477)",
            "Sonidegib (LDE-225)",
            "Rafimetinib (BAY 86939)",
            "Vismodegib (RG-7164)",
            "Tipifarnib (R-115777)",
            "Lenvatinib (E-3810)",
            "Regorafenib (BAY 73-4502)",
            "Masitinib (AB-1010)",
            "Neratinib (HKI-272)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Ceritinib",
                "Crizotinib",
                "Afatinib Dimaleate",
                "Dacomitinib"
            ],
            "mismatches": [
                "Afatinib (BIBW 2992)",
                "Nintedanib (BIBF 1120)",
                "Vandetanib (ZD-6474)",
                "Selumetinib (AZD6244)",
                "Motesanib (AMG 706)",
                "Sorafenib (BAY 43-9006)",
                "Vemurafenib (PLX-4032)",
                "Dabrafenib (GSK-2118436A)",
                "Trametinib (GSK-1120212)",
                "Cobimetinib (G-019477)",
                "Sonidegib (LDE-225)",
                "Rafimetinib (BAY 86939)",
                "Vismodegib (RG-7164)",
                "Tipifarnib (R-115777)",
                "Lenvatinib (E-3810)",
                "Regorafenib (BAY 73-4502)",
                "Masitinib (AB-1010)",
                "Neratinib (HKI-272)"
            ],
            "true_referents": [
                "Adagrasib",
                "Afatinib Dimaleate",
                "Avastin (Bevacizumab)",
                "Bevacizumab",
                "Binimetinib",
                "Brigatinib",
                "Ceritinib",
                "Crizotinib",
                "Dabrafenib Mesylate",
                "Dacomitinib",
                "Encorafenib",
                "Gefitinib",
                "Gilotrif (Afatinib Dimaleate)",
                "Pralsetinib",
                "Repotrectinib",
                "Selpercatinib",
                "Tafinlar (Dabrafenib Mesylate)",
                "Trametinib Dimethyl Sulfoxide",
                "Vizimpro (Dacomitinib)",
                "Xalkori (Crizotinib)",
                "Zykadia (Ceritinib)"
            ],
            "TP": 4,
            "FP": 18,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for lung cancer",
        "domain": "medicine",
        "response": "[\n        {\n            \"Referent\": \"Carboplatin\" (CP)\n        },\n        {\n            \"Referent\": \"Paclitaxel\" (PTX)\n        },\n        {\n            \"Referent\": \"Cisplatin\" (CPT)\n        },\n        {\n            \"Referent\": \"Docetaxel\" (DTX)\n        },\n        {\n            \"Referent\": \"Vinorelbine\" (VNR)\n        },\n        {\n            \"Referent\": \"Gemcitabine\" (GEM)\n        },\n        {\n            \"Referent\": \"Vinblastine\" (VBL)\n        },\n        {\n            \"Referent\": \"Etoposide\" (ETO)\n        },\n        {\n            \"Referent\": \"Irrinotecan\" (IRI)\n        },\n        {\n            \"Referent\": \"Topotecan\" (TOP)\n        },\n        {\n            \"Referent\": \"Capecitabine\" (CAP)\n        },\n        {\n            \"Referent\": \"Oxaliplatin\" (OXA)\n        },\n        {\n            \"Referent\": \"Bevacizumab\" (BVZ)\n        },\n        {\n            \"Referent\": \"Sorafenib\" (SOR)\n        },\n        {\n            \"Referent\": \"Erlotinib\" (ERT)\n        },\n        {\n            \"Referent\": \"Gefitinib\" (GFT)\n        },\n        {\n            \"Referent\": \"Afatinib\" (AFT)\n        },\n        {\n            \"Referent\": \"Nintedanib\" (NTD)\n        },\n        {\n            \"Referent\": \"Axitinib\" (AXT)\n        },\n        {\n            \"Referent\": \"Vandetanib\" (VDT)\n        },\n        {\n            \"Referent\": \"Crizotinib\" (CRZ)\n        },\n        {\n            \"Referent\": \"Alectinib\" (ALC)\n        },\n        {\n            \"Referent\": \"Ceritinib\" (CER)\n        },\n        {\n            \"Referent\": \"Brigatinib\" (BRG)\n        }\n    ]",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    }
]