[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Trastuzumab (Herceptin)",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)",
            "Lapatinib (Tykerb)",
            "Anastrozole (Arimidex)",
            "Letrozole (Femara)",
            "Exemestane (Aromasin)",
            "Palbociclib (Ibrance)",
            "Everolimus (Afinitor)",
            "Ibrance (Palbociclib)",
            "Olaparib (Lynparza)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Neratinib (Nerlynx)",
            "Fulvestrant (Faslodex)",
            "Ixabepilone (Ixempra)",
            "Gemcitabine (Gemzar)",
            "Capecitabine (Xeloda)",
            "Vinorelbine (Navelbine)",
            "Bevacizumab (Avastin)",
            "Toremifene (Fareston)",
            "Denosumab (Prolia)",
            "Trastuzumab emtansine (Kadcyla)",
            "Palbociclib (Ibrance)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Trastuzumab (Herceptin)",
                "Docetaxel (Taxotere)",
                "Anastrozole (Arimidex)",
                "Letrozole (Femara)",
                "Exemestane (Aromasin)",
                "Palbociclib (Ibrance)",
                "Ibrance (Palbociclib)",
                "Olaparib (Lynparza)",
                "Ribociclib (Kisqali)",
                "Abemaciclib (Verzenio)",
                "Neratinib (Nerlynx)",
                "Fulvestrant (Faslodex)",
                "Ixabepilone (Ixempra)",
                "Gemcitabine (Gemzar)",
                "Capecitabine (Xeloda)",
                "Toremifene (Fareston)",
                "Trastuzumab emtansine (Kadcyla)"
            ],
            "mismatches": [
                "Paclitaxel (Taxol)",
                "Lapatinib (Tykerb)",
                "Vinorelbine (Navelbine)",
                "Bevacizumab (Avastin)",
                "Denosumab (Prolia)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Docetaxel",
                "Everolimus",
                "Exemestane",
                "Fareston (Toremifene)",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Ixabepilone",
                "Ixempra (Ixabepilone)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Keytruda (Pembrolizumab)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Nerlynx (Neratinib Maleate)",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Ribociclib Succinate",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Toremifene",
                "Trastuzumab",
                "Tucatinib",
                "Tykerb (Lapatinib Ditosylate)",
                "Verzenio (Abemaciclib)",
                "Vinblastine Sulfate",
                "Xeloda (Capecitabine)"
            ],
            "TP": 17,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Trastuzumab (Herceptin)",
            "Palbociclib (Ibrance)",
            "Everolimus (Afinitor)",
            "Lapatinib (Tykerb)",
            "Tamoxifen",
            "Anastrozole (Arimidex)",
            "Exemestane (Aromasin)",
            "Letrozole (Femara)",
            "Bicalutamide (Casodex)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Pertuzumab (Perjeta)",
            "Olaparib (Lynparza)",
            "Nab-paclitaxel (Abraxane)",
            "Vinorelbine (Navelbine)",
            "Eribulin (Halaven)",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)",
            "Doxorubicin (Adriamycin)",
            "Cyclophosphamide",
            "Cisplatin",
            "Epirubicin (Ellence)",
            "Capecitabine (Xeloda)",
            "Bevacizumab (Avastin)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Trastuzumab (Herceptin)",
                "Palbociclib (Ibrance)",
                "Everolimus (Afinitor)",
                "Anastrozole (Arimidex)",
                "Exemestane (Aromasin)",
                "Letrozole (Femara)",
                "Ribociclib (Kisqali)",
                "Abemaciclib (Verzenio)",
                "Pertuzumab (Perjeta)",
                "Olaparib (Lynparza)",
                "Vinorelbine (Navelbine)",
                "Eribulin (Halaven)",
                "Paclitaxel (Taxol)",
                "Docetaxel (Taxotere)",
                "Cyclophosphamide",
                "Epirubicin (Ellence)",
                "Capecitabine (Xeloda)"
            ],
            "mismatches": [
                "Lapatinib (Tykerb)",
                "Tamoxifen",
                "Nab-paclitaxel (Abraxane)",
                "Doxorubicin (Adriamycin)",
                "Cisplatin",
                "Bevacizumab (Avastin)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Abraxane (Paclitaxel Albumin-stabilized Nanoparticle Formulation)",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Ellence (Epirubicin Hydrochloride)",
                "Epirubicin Hydrochloride",
                "Eribulin Mesylate",
                "Everolimus",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Halaven (Eribulin Mesylate)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Soltamox (Tamoxifen Citrate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Trastuzumab",
                "Tucatinib",
                "Tykerb (Lapatinib Ditosylate)",
                "Verzenio (Abemaciclib)",
                "Vinblastine Sulfate",
                "Xeloda (Capecitabine)"
            ],
            "TP": 17,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen (TAM)",
            "Aromasin (Exemestane)",
            "Femara (Letrozole)",
            "Arimidex (Anastrozole)",
            "Herceptin (Trastuzumab)",
            "Kadcyla (Trastuzumab emtansine)",
            "Perjeta (Pertuzumab)",
            "Kisqali (Ribociclib)",
            "Ibrance (Palbociclib)",
            "Verzenio (Abemaciclib)",
            "Faslodex (Fulvestrant)",
            "Xeloda (Capecitabine)",
            "Taxotere (Docetaxel)",
            "Navelbine (Vinorelbine)",
            "Elliptium (Elliptinium acetate)",
            "Halaven (Eribulin)",
            "Abraxane (Paclitaxel)",
            "Gemzar (Gemcitabine)",
            "Xgeva (Denosumab)",
            "Aromasin (Exemestane)",
            "Zometa (Zoledronic acid)",
            "Faslodex (Fulvestrant)",
            "Nolvadex (Tamoxifen)",
            "Xeloda (Capecitabine)",
            "Xgeva (Denosumab)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Aromasin (Exemestane)",
                "Femara (Letrozole)",
                "Arimidex (Anastrozole)",
                "Herceptin (Trastuzumab)",
                "Perjeta (Pertuzumab)",
                "Ibrance (Palbociclib)",
                "Verzenio (Abemaciclib)",
                "Faslodex (Fulvestrant)",
                "Xeloda (Capecitabine)",
                "Taxotere (Docetaxel)",
                "Halaven (Eribulin)",
                "Abraxane (Paclitaxel Albumin-stabilized Nanoparticle Formulation)",
                "Gemzar (Gemcitabine Hydrochloride)"
            ],
            "mismatches": [
                "Tamoxifen (TAM)",
                "Kadcyla (Trastuzumab emtansine)",
                "Kisqali (Ribociclib)",
                "Navelbine (Vinorelbine)",
                "Elliptium (Elliptinium acetate)",
                "Xgeva (Denosumab)",
                "Zometa (Zoledronic acid)",
                "Nolvadex (Tamoxifen)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Abraxane (Paclitaxel Albumin-stabilized Nanoparticle Formulation)",
                "Ado-Trastuzumab Emtansine",
                "Anastrozole",
                "Aredia (Pamidronate Disodium)",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Docetaxel",
                "Elacestrant Dihydrochloride",
                "Eribulin Mesylate",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Halaven (Eribulin Mesylate)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Infugem (Gemcitabine Hydrochloride)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Keytruda (Pembrolizumab)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Letrozole",
                "Megestrol Acetate",
                "Orserdu (Elacestrant Dihydrochloride)",
                "Paclitaxel",
                "Palbociclib",
                "Pamidronate Disodium",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Phesgo (Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf)",
                "Ribociclib Succinate",
                "Soltamox (Tamoxifen Citrate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Trastuzumab",
                "Verzenio (Abemaciclib)",
                "Vinblastine Sulfate",
                "Xeloda (Capecitabine)"
            ],
            "TP": 13,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen (Tam)",
            "Fulvestrant (Ful)",
            "Letrozole (Let)",
            "Anastrozole (Ana)",
            "Exemestane (Exe)",
            "Cyclophosphamide (Cy)",
            "Doxorubicin (Dox)",
            "5-Fluorouracil (5-FU)",
            "Paclitaxel (Pac)",
            "Docetaxel (Doc)",
            "Trastuzumab (Her)",
            "Pertuzumab (Per)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Lapatinib (Lap)",
            "Neratinib (Ner)",
            "Olaparib (Ola)",
            "Talazoparib (Tal)",
            "Ribociclib (Rib)",
            "Palbociclib (Pal)",
            "Abemaciclib (Abe)",
            "Capecitabine (Cape)",
            "Vinorelbine (Vin)",
            "Gemcitabine (Gem)",
            "Tucatinib (Tuc)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fulvestrant",
                "Letrozole",
                "Anastrozole",
                "Exemestane",
                "Cyclophosphamide",
                "Doxorubicin Hydrochloride",
                "5-FU (Fluorouracil Injection)",
                "Paclitaxel",
                "Docetaxel",
                "Trastuzumab",
                "Pertuzumab",
                "Ado-Trastuzumab Emtansine",
                "Lapatinib Ditosylate",
                "Neratinib Maleate",
                "Olaparib",
                "Talazoparib Tosylate",
                "Ribociclib Succinate",
                "Palbociclib",
                "Abemaciclib",
                "Capecitabine",
                "Tucatinib"
            ],
            "mismatches": [
                "Tamoxifen (Tam)",
                "Vinorelbine (Vin)",
                "Gemcitabine (Gem)"
            ],
            "true_referents": [
                "5-FU (Fluorouracil Injection)",
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fluorouracil Injection",
                "Fulvestrant",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Ribociclib Succinate and Letrozole",
                "Soltamox (Tamoxifen Citrate)",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Trastuzumab",
                "Tucatinib",
                "Tukysa (Tucatinib)",
                "Verzenio (Abemaciclib)",
                "Vinblastine Sulfate",
                "Xeloda (Capecitabine)"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Trastuzumab (Herceptin)",
            "Pertuzumab (Perjeta)",
            "Tamoxifen (Nolvadex)",
            "Anastrozole (Arimidex)",
            "Letrozole (Femara)",
            "Exemestane (Aromasin)",
            "Palbociclib (Ibrance)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Everolimus (Afinitor)",
            "Olaparib (Lynparza)",
            "Talazoparib (Talzenna)",
            "Capecitabine (Xeloda)",
            "Fulvestrant (Faslodex)",
            "Lapatinib (Tykerb)",
            "Neratinib (Nerlynx)",
            "Atezolizumab (Tecentriq)",
            "Pembrolizumab (Keytruda)",
            "Ado-trastuzumab emtansine (Kadcyla)",
            "Sacituzumab govitecan (Trodelvy)",
            "Alpelisib (Piqray)",
            "Tucatinib (Tukysa)",
            "Trastuzumab deruxtecan (Enhertu)",
            "Goserelin (Zoladex)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Trastuzumab (Herceptin)",
                "Pertuzumab (Perjeta)",
                "Anastrozole (Arimidex)",
                "Letrozole (Femara)",
                "Exemestane (Aromasin)",
                "Palbociclib (Ibrance)",
                "Ribociclib (Kisqali)",
                "Abemaciclib (Verzenio)",
                "Everolimus (Afinitor)",
                "Olaparib (Lynparza)",
                "Talazoparib (Talzenna)",
                "Capecitabine (Xeloda)",
                "Fulvestrant (Faslodex)",
                "Lapatinib (Tykerb)",
                "Neratinib (Nerlynx)",
                "Atezolizumab (Tecentriq)",
                "Pembrolizumab (Keytruda)",
                "Ado-trastuzumab emtansine (Kadcyla)",
                "Sacituzumab govitecan (Trodelvy)",
                "Alpelisib (Piqray)",
                "Tucatinib (Tukysa)",
                "Trastuzumab deruxtecan (Enhertu)",
                "Goserelin (Zoladex)"
            ],
            "mismatches": [
                "Tamoxifen (Nolvadex)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Alpelisib",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Enhertu (Fam-Trastuzumab Deruxtecan-nxki)",
                "Everolimus",
                "Exemestane",
                "Fam-Trastuzumab Deruxtecan-nxki",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Goserelin Acetate",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Keytruda (Pembrolizumab)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Nerlynx (Neratinib Maleate)",
                "Olaparib",
                "Palbociclib",
                "Pembrolizumab",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Piqray (Alpelisib)",
                "Ribociclib Succinate",
                "Sacituzumab Govitecan-hziy",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Trastuzumab",
                "Trodelvy (Sacituzumab Govitecan-hziy)",
                "Tucatinib",
                "Tukysa (Tucatinib)",
                "Tykerb (Lapatinib Ditosylate)",
                "Verzenio (Abemaciclib)",
                "Xeloda (Capecitabine)",
                "Zoladex (Goserelin Acetate)"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen (NDC: 00054-0123)",
            "Letrozole (NDC: 00054-0134)",
            "Anastrozole (NDC: 00054-0135)",
            "Trastuzumab (NDC: 50242-0140)",
            "Pertuzumab (NDC: 50242-0070)",
            "Lapatinib (NDC: 0069-0070)",
            "Ado-trastuzumab emtansine (NDC: 50242-0160)",
            "Palbociclib (NDC: 00074-6061)",
            "Ribociclib (NDC: 00074-6062)",
            "Abemaciclib (NDC: 00074-6063)",
            "Capecitabine (NDC: 00074-0240)",
            "Doxorubicin (NDC: 00074-0220)",
            "Cyclophosphamide (NDC: 00074-0221)",
            "Docetaxel (NDC: 00074-0222)",
            "Epirubicin (NDC: 00074-0223)",
            "Gemcitabine (NDC: 00074-0224)",
            "Vinorelbine (NDC: 00074-0225)",
            "Exemestane (NDC: 00054-0136)",
            "Fulvestrant (NDC: 00054-0140)",
            "Olaparib (NDC: 0071-0630)",
            "Talazoparib (NDC: 0071-0631)",
            "Neratinib (NDC: 00074-6064)",
            "Eribulin (NDC: 00074-0226)",
            "Tucatinib (NDC: 00074-6065)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Tamoxifen Citrate",
                "Letrozole",
                "Anastrozole",
                "Trastuzumab",
                "Pertuzumab",
                "Ado-Trastuzumab Emtansine",
                "Palbociclib",
                "Abemaciclib",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Exemestane",
                "Fulvestrant",
                "Olaparib",
                "Talazoparib Tosylate",
                "Neratinib Maleate",
                "Tucatinib"
            ],
            "mismatches": [
                "Ribociclib",
                "Doxorubicin",
                "Epirubicin",
                "Gemcitabine",
                "Vinorelbine",
                "Eribulin"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Ellence (Epirubicin Hydrochloride)",
                "Epirubicin Hydrochloride",
                "Eribulin Mesylate",
                "Exemestane",
                "Fam-Trastuzumab Deruxtecan-nxki",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Halaven (Eribulin Mesylate)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Kisqali (Ribociclib Succinate)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Nerlynx (Neratinib Maleate)",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Ribociclib Succinate and Letrozole",
                "Soltamox (Tamoxifen Citrate)",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Trastuzumab",
                "Tucatinib",
                "Tukysa (Tucatinib)",
                "Verzenio (Abemaciclib)",
                "Xeloda (Capecitabine)"
            ],
            "TP": 17,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Anastrozole (Arimidex)",
            "Tamoxifen (Nolvadex)",
            "Letrozole (Femara)",
            "Exemestane (Aromasin)",
            "Trastuzumab (Herceptin)",
            "Pertuzumab (Perjeta)",
            "Toremifene (Fareston)",
            "Fulvestrant (Faslodex)",
            "Palbociclib (Ibrance)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Capecitabine (Xeloda)",
            "Eribulin (Halaven)",
            "Gemcitabine (Gemzar)",
            "Lapatinib (Tykerb)",
            "Neratinib (Nerlynx)",
            "Everolimus (Afinitor)",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)",
            "Doxorubicin (Adriamycin)",
            "Cyclophosphamide (Cytoxan)",
            "Methotrexate (Trexall)",
            "Fluorouracil (Adrucil)",
            "Vinorelbine (Navelbine)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Anastrozole",
                "Exemestane",
                "Trastuzumab",
                "Pertuzumab",
                "Toremifene",
                "Fulvestrant",
                "Palbociclib",
                "Ribociclib Succinate",
                "Abemaciclib",
                "Capecitabine",
                "Eribulin Mesylate",
                "Gemcitabine Hydrochloride",
                "Lapatinib Ditosylate",
                "Neratinib Maleate",
                "Everolimus",
                "Letrozole",
                "Docetaxel",
                "Cyclophosphamide",
                "Methotrexate Sodium"
            ],
            "mismatches": [
                "Tamoxifen (Nolvadex)",
                "Vinorelbine (Navelbine)",
                "Paclitaxel (Taxol)",
                "Doxorubicin (Adriamycin)",
                "Fluorouracil (Adrucil)"
            ],
            "true_referents": [
                "5-FU (Fluorouracil Injection)",
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Eribulin Mesylate",
                "Everolimus",
                "Exemestane",
                "Fareston (Toremifene)",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fluorouracil Injection",
                "Fulvestrant",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Halaven (Eribulin Mesylate)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Methotrexate Sodium",
                "Neratinib Maleate",
                "Nerlynx (Neratinib Maleate)",
                "Paclitaxel",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Toremifene",
                "Trastuzumab",
                "Tucatinib",
                "Tykerb (Lapatinib Ditosylate)",
                "Verzenio (Abemaciclib)",
                "Vinblastine Sulfate",
                "Xeloda (Capecitabine)"
            ],
            "TP": 19,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen (Nolvadex)",
            "Letrozole (Femara)",
            "Anastrozole (Arimidex)",
            "Exemestane (Aromasin)",
            "Fulvestrant (Faslodex)",
            "Palbociclib (Ibrance)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Trastuzumab (Herceptin)",
            "Lapatinib (Tykerb)",
            "Pertuzumab (Perjeta)",
            "Ado-trastuzumab emtansine (Kadcyla)",
            "Everolimus (Afinitor)",
            "Palbociclib (Ibrance)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Capecitabine (Xeloda)",
            "Vinorelbine (Navelbine)",
            "Eribulin (Halaven)",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)",
            "Carboplatin",
            "Cisplatin",
            "Doxorubicin (Adriamycin)",
            "Epirubicin"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Letrozole (Femara)",
                "Anastrozole (Arimidex)",
                "Exemestane (Aromasin)",
                "Fulvestrant (Faslodex)",
                "Palbociclib (Ibrance)",
                "Ribociclib (Kisqali)",
                "Abemaciclib (Verzenio)",
                "Trastuzumab (Herceptin)",
                "Lapatinib (Tykerb)",
                "Pertuzumab (Perjeta)",
                "Ado-trastuzumab emtansine (Kadcyla)",
                "Everolimus (Afinitor)",
                "Capecitabine (Xeloda)",
                "Eribulin (Halaven)",
                "Docetaxel (Taxotere)"
            ],
            "mismatches": [
                "Tamoxifen (Nolvadex)",
                "Vinorelbine (Navelbine)",
                "Paclitaxel (Taxol)",
                "Carboplatin",
                "Cisplatin",
                "Doxorubicin (Adriamycin)",
                "Epirubicin"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Eribulin Mesylate",
                "Everolimus",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Halaven (Eribulin Mesylate)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Paclitaxel",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Trastuzumab",
                "Tucatinib",
                "Tykerb (Lapatinib Ditosylate)",
                "Verzenio (Abemaciclib)",
                "Vinblastine Sulfate",
                "Xeloda (Capecitabine)"
            ],
            "TP": 15,
            "FP": 7,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen",
            "Letrozole",
            "Anastrozole",
            "Exemestane",
            "Trastuzumab (Herceptin)",
            "Pertuzumab",
            "Bevacizumab (Avastin)",
            "Palbociclib (Ibrance)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Fulvestrant (Faslodex)",
            "Everolimus (Afinitor)",
            "Olaparib (Lynparza)",
            "Niraparib (Zejula)",
            "Talazoparib (Talzenna)",
            "Atezolizumab (Tecentriq)",
            "Neratinib (Nerlynx)",
            "Tucatinib (Tukysa)",
            "Pegylated liposomal doxorubicin (Doxil)",
            "Cyclophosphamide",
            "Doxorubicin",
            "Docetaxel",
            "Paclitaxel",
            "Carboplatin"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Letrozole",
                "Anastrozole",
                "Exemestane",
                "Pertuzumab",
                "Palbociclib",
                "Abemaciclib",
                "Fulvestrant",
                "Everolimus",
                "Olaparib",
                "Talazoparib Tosylate",
                "Atezolizumab",
                "Neratinib Maleate",
                "Tucatinib",
                "Cyclophosphamide",
                "Docetaxel",
                "Paclitaxel"
            ],
            "mismatches": [
                "Tamoxifen",
                "Trastuzumab (Herceptin)",
                "Bevacizumab (Avastin)",
                "Ribociclib (Kisqali)",
                "Niraparib (Zejula)",
                "Pegylated liposomal doxorubicin (Doxil)",
                "Doxorubicin",
                "Carboplatin"
            ],
            "true_referents": [
                "Abemaciclib",
                "Abraxane (Paclitaxel Albumin-stabilized Nanoparticle Formulation)",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Everolimus",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Nerlynx (Neratinib Maleate)",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Pembrolizumab",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Soltamox (Tamoxifen Citrate)",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Trastuzumab",
                "Tucatinib",
                "Tukysa (Tucatinib)",
                "Verzenio (Abemaciclib)"
            ],
            "TP": 16,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen (TMX)",
            "Anastrozole (ANA)",
            "Letrozole (LTZ)",
            "Exemestane (EXE)",
            "Fulvestrant (FUL)",
            "Palbociclib (PAL)",
            "Ribociclib (RIB)",
            "Abemaciclib (ABE)",
            "Trastuzumab (TRA)",
            "Pertuzumab (PER)",
            "Ado-trastuzumab emtansine (T-DM1)",
            "Neratinib (NER)",
            "Lapatinib (LAP)",
            "Everolimus (EVE)",
            "Alpelisib (ALP)",
            "Olaparib (OLA)",
            "Talazoparib (TAL)",
            "Sacituzumab govitecan (SG)",
            "Atezolizumab (ATE)",
            "Pembrolizumab (PEM)",
            "Capecitabine (CAP)",
            "Eribulin (ERI)",
            "Ixabepilone (IXA)",
            "Paclitaxel (PAC)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Anastrozole",
                "Letrozole",
                "Exemestane",
                "Fulvestrant",
                "Palbociclib",
                "Ribociclib Succinate",
                "Abemaciclib",
                "Trastuzumab",
                "Pertuzumab",
                "Ado-Trastuzumab Emtansine",
                "Neratinib Maleate",
                "Lapatinib Ditosylate",
                "Everolimus",
                "Alpelisib",
                "Olaparib",
                "Talazoparib Tosylate",
                "Sacituzumab Govitecan-hziy",
                "Atezolizumab",
                "Pembrolizumab",
                "Capecitabine",
                "Eribulin Mesylate",
                "Ixabepilone",
                "Paclitaxel"
            ],
            "mismatches": [
                "Tamoxifen (TMX)",
                "Ribociclib (RIB)",
                "Neratinib (NER)",
                "Lapatinib (LAP)",
                "Sacituzumab govitecan (SG)",
                "Eribulin (ERI)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Alpelisib",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Docetaxel",
                "Eribulin Mesylate",
                "Everolimus",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Halaven (Eribulin Mesylate)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Ixabepilone",
                "Ixempra (Ixabepilone)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Keytruda (Pembrolizumab)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Pembrolizumab",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Piqray (Alpelisib)",
                "Ribociclib Succinate",
                "Ribociclib Succinate and Letrozole",
                "Sacituzumab Govitecan-hziy",
                "Soltamox (Tamoxifen Citrate)",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Trastuzumab",
                "Trodelvy (Sacituzumab Govitecan-hziy)",
                "Tucatinib",
                "Verzenio (Abemaciclib)",
                "Xeloda (Capecitabine)"
            ],
            "TP": 23,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen",
            "Anastrozole (Arimidex)",
            "Letrozole (Femara)",
            "Exemestane (Aromasin)",
            "Fulvestrant (Faslodex)",
            "Toremifene (Fareston)",
            "Raloxifene (Evista)",
            "Palbociclib (Ibrance)",
            "Ribociclib (Kisqali)",
            "Abemaciclib (Verzenio)",
            "Everolimus (Afinitor)",
            "Trastuzumab (Herceptin)",
            "Pertuzumab (Perjeta)",
            "Ado-trastuzumab emtansine (Kadcyla)",
            "Lapatinib (Tykerb)",
            "Neratinib (Nerlynx)",
            "Alpelisib (Piqray)",
            "Tucatinib (Tukysa)",
            "Olaparib (Lynparza)",
            "Talazoparib (Talzenna)",
            "Capecitabine (Xeloda)",
            "Gemcitabine (Gemzar)",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Anastrozole (Arimidex)",
                "Letrozole (Femara)",
                "Exemestane (Aromasin)",
                "Fulvestrant (Faslodex)",
                "Toremifene (Fareston)",
                "Raloxifene (Evista)",
                "Palbociclib (Ibrance)",
                "Ribociclib (Kisqali)",
                "Abemaciclib (Verzenio)",
                "Everolimus (Afinitor)",
                "Trastuzumab (Herceptin)",
                "Pertuzumab (Perjeta)",
                "Ado-trastuzumab emtansine (Kadcyla)",
                "Lapatinib (Tykerb)",
                "Neratinib (Nerlynx)",
                "Alpelisib (Piqray)",
                "Tucatinib (Tukysa)",
                "Olaparib (Lynparza)",
                "Talazoparib (Talzenna)",
                "Capecitabine (Xeloda)",
                "Gemcitabine (Gemzar)",
                "Docetaxel (Taxotere)"
            ],
            "mismatches": [
                "Tamoxifen",
                "Paclitaxel (Taxol)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Alpelisib",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Docetaxel",
                "Everolimus",
                "Evista (Raloxifene Hydrochloride)",
                "Exemestane",
                "Fareston (Toremifene)",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Nerlynx (Neratinib Maleate)",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Piqray (Alpelisib)",
                "Raloxifene Hydrochloride",
                "Ribociclib Succinate",
                "Soltamox (Tamoxifen Citrate)",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Toremifene",
                "Trastuzumab",
                "Tucatinib",
                "Tukysa (Tucatinib)",
                "Tykerb (Lapatinib Ditosylate)",
                "Verzenio (Abemaciclib)",
                "Xeloda (Capecitabine)"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen (TAM)",
            "Anastrozole (ANA)",
            "Letrozole (LET)",
            "Exemestane (EXE)",
            "Fulvestrant (FUL)",
            "Palbociclib (PAL)",
            "Ribociclib (RIB)",
            "Abemaciclib (ABE)",
            "Trastuzumab (TRA)",
            "Pertuzumab (PER)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Neratinib (NER)",
            "Lapatinib (LAP)",
            "Capecitabine (CAP)",
            "Gemcitabine (GEM)",
            "Paclitaxel (PAC)",
            "Docetaxel (DOC)",
            "Doxorubicin (DOX)",
            "Epirubicin (EPI)",
            "Cyclophosphamide (CYC)",
            "Carboplatin (CAR)",
            "Olaparib (OLA)",
            "Talazoparib (TAL)",
            "Alpelisib (ALP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Anastrozole",
                "Letrozole",
                "Exemestane",
                "Fulvestrant",
                "Palbociclib",
                "Ribociclib Succinate",
                "Abemaciclib",
                "Trastuzumab",
                "Pertuzumab",
                "Ado-Trastuzumab Emtansine",
                "Neratinib Maleate",
                "Lapatinib Ditosylate",
                "Capecitabine",
                "Gemcitabine Hydrochloride",
                "Paclitaxel",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Epirubicin Hydrochloride",
                "Cyclophosphamide",
                "Olaparib",
                "Talazoparib Tosylate",
                "Alpelisib"
            ],
            "mismatches": [
                "Tamoxifen (TAM)",
                "Carboplatin (CAR)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Alpelisib",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Cyclophosphamide",
                "Docetaxel",
                "Doxorubicin Hydrochloride",
                "Ellence (Epirubicin Hydrochloride)",
                "Epirubicin Hydrochloride",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Gemcitabine Hydrochloride",
                "Gemzar (Gemcitabine Hydrochloride)",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Neratinib Maleate",
                "Olaparib",
                "Paclitaxel",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Piqray (Alpelisib)",
                "Ribociclib Succinate",
                "Ribociclib Succinate and Letrozole",
                "Soltamox (Tamoxifen Citrate)",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Trastuzumab",
                "Tucatinib",
                "Verzenio (Abemaciclib)",
                "Xeloda (Capecitabine)"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Tamoxifen (TAM)",
            "Anastrozole (ANA)",
            "Letrozole (LET)",
            "Exemestane (EXE)",
            "Fulvestrant (FUL)",
            "Palbociclib (PAL)",
            "Ribociclib (RIB)",
            "Abemaciclib (ABE)",
            "Trastuzumab (TRA)",
            "Pertuzumab (PER)",
            "Ado-trastuzumab emtansine (T-DM1)",
            "Lapatinib (LAP)",
            "Neratinib (NER)",
            "Everolimus (EVE)",
            "Olaparib (OLA)",
            "Talazoparib (TAL)",
            "Sacituzumab govitecan (SAC)",
            "Enfortumab vedotin (ENF)",
            "Margetuximab (MAR)",
            "Tucatinib (TUC)",
            "Fam-trastuzumab deruxtecan (T-DXd)",
            "Sacituzumab govitecan-hziy (SAC-H)",
            "Trastuzumab deruxtecan (T-DXd)",
            "Pyrotinib (PYR)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Anastrozole (ANA)",
                "Letrozole (LET)",
                "Exemestane (EXE)",
                "Fulvestrant (FUL)",
                "Palbociclib (PAL)",
                "Ribociclib (RIB)",
                "Abemaciclib (ABE)",
                "Trastuzumab (TRA)",
                "Pertuzumab (PER)",
                "Ado-trastuzumab emtansine (T-DM1)",
                "Neratinib (NER)",
                "Everolimus (EVE)",
                "Olaparib (OLA)",
                "Sacituzumab govitecan-hziy (SAC-H)",
                "Tucatinib (TUC)"
            ],
            "mismatches": [
                "Tamoxifen (TAM)",
                "Lapatinib (LAP)",
                "Talazoparib (TAL)",
                "Sacituzumab govitecan (SAC)",
                "Enfortumab vedotin (ENF)",
                "Margetuximab (MAR)",
                "Fam-trastuzumab deruxtecan (T-DXd)",
                "Trastuzumab deruxtecan (T-DXd)",
                "Pyrotinib (PYR)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Enhertu (Fam-Trastuzumab Deruxtecan-nxki)",
                "Everolimus",
                "Exemestane",
                "Fam-Trastuzumab Deruxtecan-nxki",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Lynparza (Olaparib)",
                "Margenza (Margetuximab-cmkb)",
                "Margetuximab-cmkb",
                "Neratinib Maleate",
                "Olaparib",
                "Palbociclib",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Ribociclib Succinate and Letrozole",
                "Sacituzumab Govitecan-hziy",
                "Soltamox (Tamoxifen Citrate)",
                "Talazoparib Tosylate",
                "Talzenna (Talazoparib Tosylate)",
                "Tamoxifen Citrate",
                "Trastuzumab",
                "Trodelvy (Sacituzumab Govitecan-hziy)",
                "Tucatinib",
                "Tukysa (Tucatinib)",
                "Verzenio (Abemaciclib)"
            ],
            "TP": 15,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": "[\n\"Anastrozole (Arimidex)\" ,\n\"Aromasin (Exemestane)\" ,\n\"Aromatase Inhibitor (Letrozole)\" ,\n\"Aromatase Inhibitor (Fulvestrant)\" ,\n\"Bevacizumab (Avastin)\" ,\n\"Bicalutamide (Casodex)\" ,\n\"Bosutinib (Bosulif)\" ,\n\"Brentuximab Vedotin (Adcetris)\" ,\n\"Capecitabine (Xeloda)\" ,\n\"Cytoxan (Cyclophosphamide)\" ,\n\"Doxorubicin (Adriamycin)\" ,\n\"Docetaxel (Taxotere)\" ,\n\"Endoxifen\" ,\n\"Eribulin (Halaven)\" ,\n\"Everolimus (Afinitor)\" ,\n\"Exemestane (Aromasin)\" ,\n\"Fulvestrant (Faslodex)\" ,\n\"Gefitinib (Iressa)\" ,\n\"Herceptin (Trastuzumab)\" ,\n\"Ixabepilone (Ixempra)\" ,\n\"Lapatinib (Tykerb)\" ,\n\"Letrozole (Femara)\" ,\n\"Mitoxantrone (Novantrone)\" ,\n\"Paclitaxel (Taxol)\" ,\n\"Paclitaxel (Abraxane)\" ,\n\"Palbociclib (Ibrance)\" ,\n\"Ribociclib (Kisqali)\" ,\n\"Tamoxifen\" ,\n\"Trastuzumab (Herceptin)\" ,\n\"Trastuzumab Emtansine (Kadcyla)\" ,\n\"Vinorelbine (Navelbine)\"",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            "Abemaciclib (LY2835219)",
            "Ado-trastuzumab emtansine (T-DM1)",
            "Anastrozole (Arimidex)",
            "Atezolizumab (Tecentriq)",
            "Bevacizumab (Avastin)",
            "Capecitabine (Xeloda)",
            "Cisplatin (Platinol)",
            "Docetaxel (Taxotere)",
            "Entrectinib (Rozlytrek)",
            "Everolimus (Afinitor)",
            "Exemestane (Aromasin)",
            "Fulvestrant (Faslodex)",
            "Goserelin (Zoladex)",
            "Ibrance (Palbociclib)",
            "Lapatinib (Tykerb)",
            "Letrozole (Femara)",
            "Neratinib (Nerlynx)",
            "Nintedanib (Vargatef)",
            "Pertuzumab (Perjeta)",
            "Ribociclib (Kisqali)",
            "Tamoxifen (Nolvadex)",
            "Trastuzumab (Herceptin)",
            "Trastuzumab deruxtecan (Enhertu)",
            "Vinorelbine (Navelbine)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Anastrozole",
                "Atezolizumab",
                "Capecitabine",
                "Docetaxel",
                "Everolimus",
                "Exemestane",
                "Fulvestrant",
                "Goserelin Acetate",
                "Ibrance (Palbociclib)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Neratinib Maleate",
                "Pertuzumab",
                "Ribociclib Succinate",
                "Trastuzumab",
                "Fam-Trastuzumab Deruxtecan-nxki"
            ],
            "mismatches": [
                "Bevacizumab (Avastin)",
                "Cisplatin (Platinol)",
                "Entrectinib (Rozlytrek)",
                "Nintedanib (Vargatef)",
                "Tamoxifen (Nolvadex)",
                "Vinorelbine (Navelbine)"
            ],
            "true_referents": [
                "Abemaciclib",
                "Ado-Trastuzumab Emtansine",
                "Afinitor (Everolimus)",
                "Afinitor Disperz (Everolimus)",
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Capecitabine",
                "Docetaxel",
                "Enhertu (Fam-Trastuzumab Deruxtecan-nxki)",
                "Everolimus",
                "Exemestane",
                "Fam-Trastuzumab Deruxtecan-nxki",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Goserelin Acetate",
                "Herceptin (Trastuzumab)",
                "Ibrance (Palbociclib)",
                "Kadcyla (Ado-Trastuzumab Emtansine)",
                "Kisqali (Ribociclib Succinate)",
                "Kisqali Femara Co-Pack (Ribociclib Succinate and Letrozole)",
                "Lapatinib Ditosylate",
                "Letrozole",
                "Neratinib Maleate",
                "Nerlynx (Neratinib Maleate)",
                "Paclitaxel",
                "Palbociclib",
                "Pembrolizumab",
                "Perjeta (Pertuzumab)",
                "Pertuzumab",
                "Pertuzumab, Trastuzumab, and Hyaluronidase-zzxf",
                "Ribociclib Succinate",
                "Tamoxifen Citrate",
                "Taxotere (Docetaxel)",
                "Tecentriq (Atezolizumab)",
                "Trastuzumab",
                "Tucatinib",
                "Tykerb (Lapatinib Ditosylate)",
                "Verzenio (Abemaciclib)",
                "Vinblastine Sulfate",
                "Xeloda (Capecitabine)",
                "Zoladex (Goserelin Acetate)"
            ],
            "TP": 18,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for breast cancer",
        "domain": "medicine",
        "response": [
            {
                "Referent": "Tamoxifen",
                "Canonical name": "tamoxifen"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Fulvestrant",
                "Canonical name": "fulvestrant"
            },
            {
                "Referent": "Aromatase inhibitors",
                "Canonical name": "aromatase inhibitors"
            },
            {
                "Referent": "Letrozole",
                "Canonical name": "letrozole"
            },
            {
                "Referent": "Anastrozole",
                "Canonical name": "anastrozole"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            },
            {
                "Referent": "Exemestane",
                "Canonical name": "exemestane"
            }
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Exemestane",
                "Fulvestrant",
                "Letrozole",
                "Anastrozole"
            ],
            "mismatches": [
                "Tamoxifen",
                "Aromatase inhibitors"
            ],
            "true_referents": [
                "Anastrozole",
                "Arimidex (Anastrozole)",
                "Aromasin (Exemestane)",
                "Exemestane",
                "Faslodex (Fulvestrant)",
                "Femara (Letrozole)",
                "Fulvestrant",
                "Letrozole",
                "Soltamox (Tamoxifen Citrate)",
                "Tamoxifen Citrate"
            ],
            "TP": 4,
            "FP": 2,
            "FN": 0
        }
    }
]