[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Imiquimod (IMQ)",
            "Vismodegib (ERIVEDGE)",
            "Cemiplimab-rwlc (LIBTAYI)",
            "Dabrafenib (TAFLIN)",
            "Trametinib (Mekinist)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Cetuximab (Erbitux)",
            "Ipilimumab (Yervoy)",
            "Vemurafenib (Zelboraf)",
            "Encorafenib (BRAFTOMI)",
            "Binimetinib (MEKINIST)",
            "Talimogene laherparepvec (T-VEC, Imlygic)",
            "Atezolizumab (Tecentriq)",
            "Aflibercept (Zaltrap)",
            "Bevacizumab (Avastin)",
            "Gemcitabine (Gemzar)",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)",
            "Cetuximab (Erbitux)",
            "Everolimus (Afinitor)",
            "Temozolomide (Temodar)",
            "Regorafenib (Stivarga)",
            "Necitumumab (Portrazza)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imiquimod (IMQ)",
                "Vismodegib (ERIVEDGE)",
                "Cemiplimab-rwlc (LIBTAYI)",
                "Dabrafenib (TAFLIN)",
                "Trametinib (Mekinist)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Cetuximab (Erbitux)",
                "Ipilimumab (Yervoy)",
                "Vemurafenib (Zelboraf)",
                "Encorafenib (BRAFTOMI)",
                "Binimetinib (MEKINIST)",
                "Talimogene laherparepvec (T-VEC, Imlygic)",
                "Atezolizumab (Tecentriq)",
                "Aflibercept (Zaltrap)",
                "Bevacizumab (Avastin)",
                "Gemcitabine (Gemzar)",
                "Paclitaxel (Taxol)",
                "Docetaxel (Taxotere)",
                "Everolimus (Afinitor)",
                "Temozolomide (Temodar)",
                "Regorafenib (Stivarga)",
                "Necitumumab (Portrazza)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aflibercept (Zaltrap)",
                "Atezolizumab (Tecentriq)",
                "Bevacizumab (Avastin)",
                "Binimetinib (MEKINIST)",
                "Cemiplimab-rwlc (LIBTAYI)",
                "Cetuximab (Erbitux)",
                "Dabrafenib (TAFLIN)",
                "Docetaxel (Taxotere)",
                "Encorafenib (BRAFTOMI)",
                "Everolimus (Afinitor)",
                "Gemcitabine (Gemzar)",
                "Imiquimod (IMQ)",
                "Ipilimumab (Yervoy)",
                "Necitumumab (Portrazza)",
                "Nivolumab (Opdivo)",
                "Paclitaxel (Taxol)",
                "Pembrolizumab (Keytruda)",
                "Regorafenib (Stivarga)",
                "Talimogene laherparepvec (T-VEC, Imlygic)",
                "Temozolomide (Temodar)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (ERIVEDGE)"
            ],
            "TP": 23,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Vemurafenib (PLX4032)",
            "Dabrafenib (GSK2118436)",
            "Trametinib (GSK1120212)",
            "Cobimetinib (GDC-0973)",
            "Encorafenib (BMS-958585)",
            "Binimetinib (MEK162)",
            "Sonidegib (LDE225)",
            "Vismodegib (Erivedge)",
            "Tazemetostat (Tazverik)",
            "Bexarotene (Targretin)",
            "Doxorubicin",
            "Dacarbazine (DTIC)",
            "Temozolomide",
            "Paclitaxel",
            "Carboplatin",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Atezolizumab (Tecentriq)",
            "Durvalumab (Imfinzi)",
            "Cemiplimab (Libtayo)",
            "Ipilimumab (Yervoy)",
            "Combination of Nivolumab and Ipilimumab",
            "Combination of Pembrolizumab and Cetuximab",
            "Combination of Dabrafenib and Trametinib"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Vemurafenib (PLX4032)",
                "Dabrafenib (GSK2118436)",
                "Trametinib (GSK1120212)",
                "Cobimetinib (GDC-0973)",
                "Encorafenib (BMS-958585)",
                "Binimetinib (MEK162)",
                "Sonidegib (LDE225)",
                "Vismodegib (Erivedge)",
                "Tazemetostat (Tazverik)",
                "Bexarotene (Targretin)",
                "Doxorubicin",
                "Dacarbazine (DTIC)",
                "Temozolomide",
                "Paclitaxel",
                "Carboplatin",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Atezolizumab (Tecentriq)",
                "Durvalumab (Imfinzi)",
                "Cemiplimab (Libtayo)",
                "Ipilimumab (Yervoy)",
                "Combination of Nivolumab and Ipilimumab",
                "Combination of Pembrolizumab and Cetuximab",
                "Combination of Dabrafenib and Trametinib"
            ],
            "mismatches": [],
            "true_referents": [
                "Atezolizumab (Tecentriq)",
                "Bexarotene (Targretin)",
                "Binimetinib (MEK162)",
                "Carboplatin",
                "Cemiplimab (Libtayo)",
                "Cobimetinib (GDC-0973)",
                "Combination of Dabrafenib and Trametinib",
                "Combination of Nivolumab and Ipilimumab",
                "Combination of Pembrolizumab and Cetuximab",
                "Dabrafenib (GSK2118436)",
                "Dacarbazine (DTIC)",
                "Doxorubicin",
                "Durvalumab (Imfinzi)",
                "Encorafenib (BMS-958585)",
                "Ipilimumab (Yervoy)",
                "Nivolumab (Opdivo)",
                "Paclitaxel",
                "Pembrolizumab (Keytruda)",
                "Sonidegib (LDE225)",
                "Tazemetostat (Tazverik)",
                "Temozolomide",
                "Trametinib (GSK1120212)",
                "Vemurafenib (PLX4032)",
                "Vismodegib (Erivedge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Aldara (Imiquimod)",
            "Efudex (Fluorouracil)",
            "Zorac (Tazarotene)",
            "Carac (Fluorouracil)",
            "Fludex (Fluorouracil)",
            "Florax (Fluorouracil)",
            "Fluoroplex (Fluorouracil)",
            "Vesanoid (Tretinoin)",
            "Sorilux (Calcipotriol)",
            "Dovonex (Calcipotriol)",
            "Targretin (Bexarotene)",
            "Zyclara (Imiquimod)",
            "Pepfar (Imiquimod)",
            "Bexarotene",
            "Vismodegib",
            "Sonidegib",
            "Cobimetinib",
            "Vemurafenib",
            "Dabrafenib",
            "Trametinib",
            "Talimogene laherparepvec",
            "Pembrolizumab",
            "Cemiplimab",
            "Nivolumab"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Aldara (Imiquimod)",
                "Efudex (Fluorouracil)",
                "Zorac (Tazarotene)",
                "Carac (Fluorouracil)",
                "Fludex (Fluorouracil)",
                "Florax (Fluorouracil)",
                "Fluoroplex (Fluorouracil)",
                "Vesanoid (Tretinoin)",
                "Sorilux (Calcipotriol)",
                "Dovonex (Calcipotriol)",
                "Targretin (Bexarotene)",
                "Zyclara (Imiquimod)",
                "Pepfar (Imiquimod)",
                "Bexarotene",
                "Vismodegib",
                "Sonidegib",
                "Cobimetinib",
                "Vemurafenib",
                "Dabrafenib",
                "Trametinib",
                "Talimogene laherparepvec",
                "Pembrolizumab",
                "Cemiplimab",
                "Nivolumab"
            ],
            "mismatches": [],
            "true_referents": [
                "Aldara (Imiquimod)",
                "Bexarotene",
                "Carac (Fluorouracil)",
                "Cemiplimab",
                "Cobimetinib",
                "Dabrafenib",
                "Dovonex (Calcipotriol)",
                "Efudex (Fluorouracil)",
                "Florax (Fluorouracil)",
                "Fludex (Fluorouracil)",
                "Fluoroplex (Fluorouracil)",
                "Nivolumab",
                "Pembrolizumab",
                "Pepfar (Imiquimod)",
                "Sonidegib",
                "Sorilux (Calcipotriol)",
                "Talimogene laherparepvec",
                "Targretin (Bexarotene)",
                "Trametinib",
                "Vemurafenib",
                "Vesanoid (Tretinoin)",
                "Vismodegib",
                "Zorac (Tazarotene)",
                "Zyclara (Imiquimod)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Fluorouracil (5-FU)",
            "Imiquimod (Aldara)",
            "Retinoids (Tretinoin)",
            "Interferon alfa-2b (Intron A)",
            "Bleomycin (Blenoxane)",
            "Mohs surgery-assisted Vismodegib (Sonidegib)",
            "Vismodegib (Sonidegib)",
            "Sorafenib (Nexavar)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Binimetinib (Mektovi)",
            "Trametinib (Mekinist)",
            "Vemurafenib (Zelboraf)",
            "Dabrafenib (Tafinlar)",
            "Cobimetinib (Cotellic)",
            "Encorafenib (Braftovi)",
            "Cetuximab (Erbitux)",
            "Panitumumab (Vectibix)",
            "Talimogene laherparepvec (T-VEC/Imlygic)",
            "Cemiplimab (Libtayo)",
            "Atezolizumab (Tecentriq)",
            "Tislelizumab",
            "Relatlimab/Nivolumab combination (Opdualag)",
            "Fotodynamic therapy with aminolevulinic acid (ALA)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fluorouracil (5-FU)",
                "Imiquimod (Aldara)",
                "Retinoids (Tretinoin)",
                "Interferon alfa-2b (Intron A)",
                "Bleomycin (Blenoxane)",
                "Mohs surgery-assisted Vismodegib (Sonidegib)",
                "Vismodegib (Sonidegib)",
                "Sorafenib (Nexavar)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Binimetinib (Mektovi)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Dabrafenib (Tafinlar)",
                "Cobimetinib (Cotellic)",
                "Encorafenib (Braftovi)",
                "Cetuximab (Erbitux)",
                "Panitumumab (Vectibix)",
                "Talimogene laherparepvec (T-VEC/Imlygic)",
                "Cemiplimab (Libtayo)",
                "Atezolizumab (Tecentriq)",
                "Tislelizumab",
                "Relatlimab/Nivolumab combination (Opdualag)",
                "Fotodynamic therapy with aminolevulinic acid (ALA)"
            ],
            "mismatches": [],
            "true_referents": [
                "Atezolizumab (Tecentriq)",
                "Binimetinib (Mektovi)",
                "Bleomycin (Blenoxane)",
                "Cemiplimab (Libtayo)",
                "Cetuximab (Erbitux)",
                "Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Encorafenib (Braftovi)",
                "Fluorouracil (5-FU)",
                "Fotodynamic therapy with aminolevulinic acid (ALA)",
                "Imiquimod (Aldara)",
                "Interferon alfa-2b (Intron A)",
                "Mohs surgery-assisted Vismodegib (Sonidegib)",
                "Nivolumab (Opdivo)",
                "Panitumumab (Vectibix)",
                "Pembrolizumab (Keytruda)",
                "Relatlimab/Nivolumab combination (Opdualag)",
                "Retinoids (Tretinoin)",
                "Sorafenib (Nexavar)",
                "Talimogene laherparepvec (T-VEC/Imlygic)",
                "Tislelizumab",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (Sonidegib)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Vemurafenib (Zelboraf)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Cobimetinib (Cotellic)",
            "Atezolizumab (Tecentriq)",
            "Cemiplimab (Libtayo)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Sonidegib (Odomzo)",
            "Vismodegib (Erivedge)",
            "Avelumab (Bavencio)",
            "Talimogene laherparepvec (Imlygic)",
            "Dacarbazine (DTIC-Dome)",
            "Aldesleukin (Proleukin)",
            "Interferon alfa-2b (Intron A)",
            "Peginterferon alfa-2b (Sylatron)",
            "Bexarotene (Targretin)",
            "Mechlorethamine gel (Valchlor)",
            "Brentuximab vedotin (Adcetris)",
            "Niraparib (Zejula)",
            "Olaparib (Lynparza)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Vemurafenib (Zelboraf)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Cobimetinib (Cotellic)",
                "Atezolizumab (Tecentriq)",
                "Cemiplimab (Libtayo)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Sonidegib (Odomzo)",
                "Vismodegib (Erivedge)",
                "Avelumab (Bavencio)",
                "Talimogene laherparepvec (Imlygic)",
                "Dacarbazine (DTIC-Dome)",
                "Aldesleukin (Proleukin)",
                "Interferon alfa-2b (Intron A)",
                "Peginterferon alfa-2b (Sylatron)",
                "Bexarotene (Targretin)",
                "Mechlorethamine gel (Valchlor)",
                "Brentuximab vedotin (Adcetris)",
                "Niraparib (Zejula)",
                "Olaparib (Lynparza)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aldesleukin (Proleukin)",
                "Atezolizumab (Tecentriq)",
                "Avelumab (Bavencio)",
                "Bexarotene (Targretin)",
                "Binimetinib (Mektovi)",
                "Brentuximab vedotin (Adcetris)",
                "Cemiplimab (Libtayo)",
                "Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Dacarbazine (DTIC-Dome)",
                "Encorafenib (Braftovi)",
                "Interferon alfa-2b (Intron A)",
                "Ipilimumab (Yervoy)",
                "Mechlorethamine gel (Valchlor)",
                "Niraparib (Zejula)",
                "Nivolumab (Opdivo)",
                "Olaparib (Lynparza)",
                "Peginterferon alfa-2b (Sylatron)",
                "Pembrolizumab (Keytruda)",
                "Sonidegib (Odomzo)",
                "Talimogene laherparepvec (Imlygic)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (Erivedge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Dabrafenib (DABRAFENIB)",
            "Trametinib (TRAMETINIB)",
            "Vemurafenib (VEMURAFENIB)",
            "Nivolumab (NIVOLUMAB)",
            "Pembrolizumab (PEMBROLIZUMAB)",
            "Ipilimumab (IPILIMUMAB)",
            "Talimogene laherparepvec (TALIMOGENE LAHERPAREPVEC)",
            "Atezolizumab (ATEZOLIZUMAB)",
            "Durvalumab (DURVALUMAB)",
            "Lenvatinib (LENVATINIB)",
            "Sonidegib (SONIDEGIB)",
            "Vismodegib (VISMODEGIB)",
            "Cemiplimab (CEMIPLIMAB)",
            "Sunitinib (SUNITINIB)",
            "Regorafenib (REGORAFENIB)",
            "Axitinib (AXITINIB)",
            "Blinatumomab (BLINATUMOMAB)",
            "Carfilzomib (CARFILZOMIB)",
            "Mekatinib (MEKATINIB)",
            "Nintedanib (NINTEDANIB)",
            "Ruxolitinib (RUXOLITINIB)",
            "Tazemetostat (TAZEMETOSTAT)",
            "Encorafenib (ENCORAFENIB)",
            "Selpercatinib (SELPERCATINIB)",
            "Pralsetinib (PRALSETINIB)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Dabrafenib (DABRAFENIB)",
                "Trametinib (TRAMETINIB)",
                "Vemurafenib (VEMURAFENIB)",
                "Nivolumab (NIVOLUMAB)",
                "Pembrolizumab (PEMBROLIZUMAB)",
                "Ipilimumab (IPILIMUMAB)",
                "Talimogene laherparepvec (TALIMOGENE LAHERPAREPVEC)",
                "Atezolizumab (ATEZOLIZUMAB)",
                "Durvalumab (DURVALUMAB)",
                "Lenvatinib (LENVATINIB)",
                "Sonidegib (SONIDEGIB)",
                "Vismodegib (VISMODEGIB)",
                "Cemiplimab (CEMIPLIMAB)",
                "Sunitinib (SUNITINIB)",
                "Regorafenib (REGORAFENIB)",
                "Axitinib (AXITINIB)",
                "Blinatumomab (BLINATUMOMAB)",
                "Carfilzomib (CARFILZOMIB)",
                "Mekatinib (MEKATINIB)",
                "Nintedanib (NINTEDANIB)",
                "Ruxolitinib (RUXOLITINIB)",
                "Tazemetostat (TAZEMETOSTAT)",
                "Encorafenib (ENCORAFENIB)",
                "Selpercatinib (SELPERCATINIB)"
            ],
            "mismatches": [
                "Pralsetinib (PRALSETINIB)"
            ],
            "true_referents": [
                "Atezolizumab (ATEZOLIZUMAB)",
                "Axitinib (AXITINIB)",
                "Blinatumomab (BLINATUMOMAB)",
                "Carfilzomib (CARFILZOMIB)",
                "Cemiplimab (CEMIPLIMAB)",
                "Dabrafenib (DABRAFENIB)",
                "Durvalumab (DURVALUMAB)",
                "Encorafenib (ENCORAFENIB)",
                "Ipilimumab (IPILIMUMAB)",
                "Lenvatinib (LENVATINIB)",
                "Mekatinib (MEKATINIB)",
                "Nintedanib (NINTEDANIB)",
                "Nivolumab (NIVOLUMAB)",
                "Pembrolizumab (PEMBROLIZUMAB)",
                "Regorafenib (REGORAFENIB)",
                "Ruxolitinib (RUXOLITINIB)",
                "Selpercatinib (SELPERCATINIB)",
                "Sonidegib (SONIDEGIB)",
                "Sunitinib (SUNITINIB)",
                "Talimogene laherparepvec (TALIMOGENE LAHERPAREPVEC)",
                "Tazemetostat (TAZEMETOSTAT)",
                "Trametinib (TRAMETINIB)",
                "Vemurafenib (VEMURAFENIB)",
                "Vismodegib (VISMODEGIB)"
            ],
            "TP": 24,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Vemurafenib (Zelboraf)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Cemiplimab (Libtayo)",
            "Avelumab (Bavencio)",
            "Imiquimod (Aldara)",
            "Fluorouracil (Efudex)",
            "Ingenol mebutate (Picato)",
            "Diclofenac (Solaraze)",
            "Interferon alpha-2b (Intron A)",
            "Peginterferon alfa-2b (Sylatron)",
            "Talimogene laherparepvec (Imlygic)",
            "Cobimetinib (Cotellic)",
            "Binimetinib (Mektovi)",
            "Encorafenib (Braftovi)",
            "Vismodegib (Erivedge)",
            "Sonidegib (Odomzo)",
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Axitinib (Inlyta)",
            "Everolimus (Afinitor)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Vemurafenib (Zelboraf)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Cemiplimab (Libtayo)",
                "Avelumab (Bavencio)",
                "Imiquimod (Aldara)",
                "Fluorouracil (Efudex)",
                "Ingenol mebutate (Picato)",
                "Diclofenac (Solaraze)",
                "Interferon alpha-2b (Intron A)",
                "Peginterferon alfa-2b (Sylatron)",
                "Talimogene laherparepvec (Imlygic)",
                "Cobimetinib (Cotellic)",
                "Binimetinib (Mektovi)",
                "Encorafenib (Braftovi)",
                "Vismodegib (Erivedge)",
                "Sonidegib (Odomzo)",
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Axitinib (Inlyta)",
                "Everolimus (Afinitor)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Binimetinib (Mektovi)",
                "Cemiplimab (Libtayo)",
                "Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Diclofenac (Solaraze)",
                "Encorafenib (Braftovi)",
                "Everolimus (Afinitor)",
                "Fluorouracil (Efudex)",
                "Imiquimod (Aldara)",
                "Ingenol mebutate (Picato)",
                "Interferon alpha-2b (Intron A)",
                "Ipilimumab (Yervoy)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Peginterferon alfa-2b (Sylatron)",
                "Pembrolizumab (Keytruda)",
                "Sonidegib (Odomzo)",
                "Sunitinib (Sutent)",
                "Talimogene laherparepvec (Imlygic)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (Erivedge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Ipilimumab (Yervoy)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Vemurafenib (Zelboraf)",
            "Cobimetinib (Cotellic)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Sonidegib (Odomzo)",
            "Vismodegib (Erivedge)",
            "Dacarbazine (DTIC-Dome)",
            "Temozolomide (Temodar)",
            "Cisplatin (Platinol)",
            "Carboplatin (Paraplatin)",
            "Oxaliplatin (Eloxatin)",
            "Interferon alfa-2b (Intron A)",
            "Interleukin-2 (Proleukin)",
            "Aldesleukin (Proleukin)",
            "Methotrexate (Trexall)",
            "Fluorouracil (Adrucil)",
            "Capecitabine (Xeloda)",
            "Imiquimod (Aldara)",
            "Tretinoin (Vesanoid)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Ipilimumab (Yervoy)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Cobimetinib (Cotellic)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Sonidegib (Odomzo)",
                "Vismodegib (Erivedge)",
                "Dacarbazine (DTIC-Dome)",
                "Temozolomide (Temodar)",
                "Cisplatin (Platinol)",
                "Carboplatin (Paraplatin)",
                "Oxaliplatin (Eloxatin)",
                "Interferon alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Aldesleukin (Proleukin)",
                "Methotrexate (Trexall)",
                "Fluorouracil (Adrucil)",
                "Capecitabine (Xeloda)",
                "Imiquimod (Aldara)",
                "Tretinoin (Vesanoid)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aldesleukin (Proleukin)",
                "Binimetinib (Mektovi)",
                "Capecitabine (Xeloda)",
                "Carboplatin (Paraplatin)",
                "Cisplatin (Platinol)",
                "Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Dacarbazine (DTIC-Dome)",
                "Encorafenib (Braftovi)",
                "Fluorouracil (Adrucil)",
                "Imiquimod (Aldara)",
                "Interferon alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Ipilimumab (Yervoy)",
                "Methotrexate (Trexall)",
                "Nivolumab (Opdivo)",
                "Oxaliplatin (Eloxatin)",
                "Pembrolizumab (Keytruda)",
                "Sonidegib (Odomzo)",
                "Temozolomide (Temodar)",
                "Trametinib (Mekinist)",
                "Tretinoin (Vesanoid)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (Erivedge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Vemurafenib (Zelboraf)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Cobimetinib (Cotellic)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Cemiplimab (Libtayo)",
            "Vismodegib (Erivedge)",
            "Sonidegib (Odomzo)",
            "Ipilimumab (Yervoy)",
            "Talimogene laherparepvec (T-VEC)",
            "Imiquimod (Aldara)",
            "5-Fluorouracil (5-FU)",
            "Cetuximab (Erbitux)",
            "Atezolizumab (Tecentriq)",
            "Axitinib (Inlyta)",
            "Sorafenib (Nexavar)",
            "Erlotinib (Tarceva)",
            "Gefitinib (Iressa)",
            "Regorafenib (Stivarga)",
            "Durvalumab (Imfinzi)",
            "Anlotinib"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Vemurafenib (Zelboraf)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Cobimetinib (Cotellic)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Cemiplimab (Libtayo)",
                "Vismodegib (Erivedge)",
                "Sonidegib (Odomzo)",
                "Ipilimumab (Yervoy)",
                "Talimogene laherparepvec (T-VEC)",
                "Imiquimod (Aldara)",
                "5-Fluorouracil (5-FU)",
                "Cetuximab (Erbitux)",
                "Atezolizumab (Tecentriq)",
                "Axitinib (Inlyta)",
                "Sorafenib (Nexavar)",
                "Erlotinib (Tarceva)",
                "Gefitinib (Iressa)",
                "Regorafenib (Stivarga)",
                "Durvalumab (Imfinzi)",
                "Anlotinib"
            ],
            "mismatches": [],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Anlotinib",
                "Atezolizumab (Tecentriq)",
                "Axitinib (Inlyta)",
                "Binimetinib (Mektovi)",
                "Cemiplimab (Libtayo)",
                "Cetuximab (Erbitux)",
                "Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Durvalumab (Imfinzi)",
                "Encorafenib (Braftovi)",
                "Erlotinib (Tarceva)",
                "Gefitinib (Iressa)",
                "Imiquimod (Aldara)",
                "Ipilimumab (Yervoy)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Regorafenib (Stivarga)",
                "Sonidegib (Odomzo)",
                "Sorafenib (Nexavar)",
                "Talimogene laherparepvec (T-VEC)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (Erivedge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Vemurafenib (PLX4032)",
            "Dabrafenib (GSK2118436)",
            "Encorafenib (LGX818)",
            "Trametinib (GSK1120212)",
            "Cobimetinib (GDC-0973)",
            "Binimetinib (MEK162)",
            "Ipilimumab (MDX-010)",
            "Nivolumab (ONO-4538)",
            "Pembrolizumab (MK-3475)",
            "Cemiplimab (REGN2810)",
            "Avelumab (MSB0010718C)",
            "Atezolizumab (MPDL3280A)",
            "Durvalumab (MEDI4736)",
            "Talimogene laherparepvec (T-VEC)",
            "Imiquimod",
            "5-Fluorouracil (5-FU)",
            "Vismodegib (GDC-0449)",
            "Sonidegib (LDE225)",
            "Imatinib (STI571)",
            "Alitretinoin (9-cis-retinoic acid)",
            "Bexarotene",
            "Interferon alfa-2b",
            "Aldesleukin (IL-2)",
            "Dacarbazine (DTIC)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Vemurafenib (PLX4032)",
                "Dabrafenib (GSK2118436)",
                "Encorafenib (LGX818)",
                "Trametinib (GSK1120212)",
                "Cobimetinib (GDC-0973)",
                "Binimetinib (MEK162)",
                "Ipilimumab (MDX-010)",
                "Nivolumab (ONO-4538)",
                "Pembrolizumab (MK-3475)",
                "Cemiplimab (REGN2810)",
                "Avelumab (MSB0010718C)",
                "Atezolizumab (MPDL3280A)",
                "Durvalumab (MEDI4736)",
                "Talimogene laherparepvec (T-VEC)",
                "Imiquimod",
                "5-Fluorouracil (5-FU)",
                "Vismodegib (GDC-0449)",
                "Sonidegib (LDE225)",
                "Imatinib (STI571)",
                "Alitretinoin (9-cis-retinoic acid)",
                "Bexarotene",
                "Interferon alfa-2b",
                "Aldesleukin (IL-2)",
                "Dacarbazine (DTIC)"
            ],
            "mismatches": [],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Aldesleukin (IL-2)",
                "Alitretinoin (9-cis-retinoic acid)",
                "Atezolizumab (MPDL3280A)",
                "Avelumab (MSB0010718C)",
                "Bexarotene",
                "Binimetinib (MEK162)",
                "Cemiplimab (REGN2810)",
                "Cobimetinib (GDC-0973)",
                "Dabrafenib (GSK2118436)",
                "Dacarbazine (DTIC)",
                "Durvalumab (MEDI4736)",
                "Encorafenib (LGX818)",
                "Imatinib (STI571)",
                "Imiquimod",
                "Interferon alfa-2b",
                "Ipilimumab (MDX-010)",
                "Nivolumab (ONO-4538)",
                "Pembrolizumab (MK-3475)",
                "Sonidegib (LDE225)",
                "Talimogene laherparepvec (T-VEC)",
                "Trametinib (GSK1120212)",
                "Vemurafenib (PLX4032)",
                "Vismodegib (GDC-0449)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Fluorouracil (5-FU)",
            "Imiquimod (Aldara)",
            "Ingenol mebutate (Picato)",
            "Diclofenac sodium (Solaraze)",
            "Vismodegib (Erivedge)",
            "Sonidegib (Odomzo)",
            "Cemiplimab-rwlc (Libtayo)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Vemurafenib (Zelboraf)",
            "Cobimetinib (Cotellic)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Bexarotene (Targretin)",
            "Alitretinoin (Panretin)",
            "Tazarotene (Tazorac)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fluorouracil (5-FU)",
                "Imiquimod (Aldara)",
                "Ingenol mebutate (Picato)",
                "Diclofenac sodium (Solaraze)",
                "Vismodegib (Erivedge)",
                "Sonidegib (Odomzo)",
                "Cemiplimab-rwlc (Libtayo)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Cobimetinib (Cotellic)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Bexarotene (Targretin)",
                "Alitretinoin (Panretin)",
                "Tazarotene (Tazorac)"
            ],
            "mismatches": [],
            "true_referents": [
                "Alitretinoin (Panretin)",
                "Bexarotene (Targretin)",
                "Binimetinib (Mektovi)",
                "Bosutinib (Bosulif)",
                "Cemiplimab-rwlc (Libtayo)",
                "Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Dasatinib (Sprycel)",
                "Diclofenac sodium (Solaraze)",
                "Encorafenib (Braftovi)",
                "Fluorouracil (5-FU)",
                "Imatinib (Gleevec)",
                "Imiquimod (Aldara)",
                "Ingenol mebutate (Picato)",
                "Ipilimumab (Yervoy)",
                "Nilotinib (Tasigna)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Ponatinib (Iclusig)",
                "Sonidegib (Odomzo)",
                "Tazarotene (Tazorac)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (Erivedge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Fluorouracil (5-FU)",
            "Imiquimod (Aldara)",
            "Ingenol Mebutate (Picato)",
            "Vismodegib (Erivedge)",
            "Sonidegib (Odomzo)",
            "Cemiplimab (Libtayo)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Vemurafenib (Zelboraf)",
            "Cobimetinib (Cotellic)",
            "Encorafenib (Braftovi)",
            "Binimetinib (Mektovi)",
            "Electrochemotherapy",
            "Photodynamic Therapy (PDT)",
            "Interferon Alfa-2b (Intron A)",
            "Interleukin-2 (Proleukin)",
            "Bacillus Calmette-Gu\u00e9rin (BCG)",
            "Alitretinoin (Panretin)",
            "Bexarotene (Targretin)",
            "Paclitaxel (Taxol)",
            "Docetaxel (Taxotere)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fluorouracil (5-FU)",
                "Imiquimod (Aldara)",
                "Ingenol Mebutate (Picato)",
                "Vismodegib (Erivedge)",
                "Sonidegib (Odomzo)",
                "Cemiplimab (Libtayo)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Cobimetinib (Cotellic)",
                "Encorafenib (Braftovi)",
                "Binimetinib (Mektovi)",
                "Electrochemotherapy",
                "Photodynamic Therapy (PDT)",
                "Interferon Alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Bacillus Calmette-Gu\u00e9rin (BCG)",
                "Alitretinoin (Panretin)",
                "Bexarotene (Targretin)",
                "Paclitaxel (Taxol)",
                "Docetaxel (Taxotere)"
            ],
            "mismatches": [],
            "true_referents": [
                "Alitretinoin (Panretin)",
                "Bacillus Calmette-Gu\u00e9rin (BCG)",
                "Bexarotene (Targretin)",
                "Binimetinib (Mektovi)",
                "Cemiplimab (Libtayo)",
                "Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Docetaxel (Taxotere)",
                "Electrochemotherapy",
                "Encorafenib (Braftovi)",
                "Fluorouracil (5-FU)",
                "Imiquimod (Aldara)",
                "Ingenol Mebutate (Picato)",
                "Interferon Alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Ipilimumab (Yervoy)",
                "Nivolumab (Opdivo)",
                "Paclitaxel (Taxol)",
                "Pembrolizumab (Keytruda)",
                "Photodynamic Therapy (PDT)",
                "Sonidegib (Odomzo)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vismodegib (Erivedge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Imiquimod (IMQ)",
            "Ingenol Mebutate (IMB)",
            "Vismodegib (VIS)",
            "Sonidegib (SON)",
            "Cobimetinib (COB)",
            "Vemurafenib (VEM)",
            "Dabrafenib (DAB)",
            "Trametinib (TRA)",
            "Encorafenib (ENC)",
            "Binimetinib (BIN)",
            "Cemiplimab (CEM)",
            "Nivolumab (NIV)",
            "Pembrolizumab (PEM)",
            "Ipilimumab (IPI)",
            "Avelumab (AVE)",
            "Atezolizumab (ATE)",
            "Talimogene Laherparepvec (TLH)",
            "Brentuximab Vedotin (BRE)",
            "Imatinib (IMA)",
            "Regorafenib (REG)",
            "Sunitinib (SUN)",
            "Pazopanib (PAZ)",
            "Axitinib (AXI)",
            "Sorafenib (SOR)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imiquimod (IMQ)",
                "Ingenol Mebutate (IMB)",
                "Vismodegib (VIS)",
                "Sonidegib (SON)",
                "Cobimetinib (COB)",
                "Vemurafenib (VEM)",
                "Dabrafenib (DAB)",
                "Trametinib (TRA)",
                "Encorafenib (ENC)",
                "Binimetinib (BIN)",
                "Cemiplimab (CEM)",
                "Nivolumab (NIV)",
                "Pembrolizumab (PEM)",
                "Ipilimumab (IPI)",
                "Avelumab (AVE)",
                "Atezolizumab (ATE)",
                "Talimogene Laherparepvec (TLH)",
                "Brentuximab Vedotin (BRE)",
                "Imatinib (IMA)",
                "Regorafenib (REG)",
                "Sunitinib (SUN)",
                "Pazopanib (PAZ)",
                "Axitinib (AXI)",
                "Sorafenib (SOR)"
            ],
            "mismatches": [],
            "true_referents": [
                "Atezolizumab (ATE)",
                "Avelumab (AVE)",
                "Axitinib (AXI)",
                "Binimetinib (BIN)",
                "Brentuximab Vedotin (BRE)",
                "Cemiplimab (CEM)",
                "Cobimetinib (COB)",
                "Dabrafenib (DAB)",
                "Encorafenib (ENC)",
                "Imatinib (IMA)",
                "Imiquimod (IMQ)",
                "Ingenol Mebutate (IMB)",
                "Ipilimumab (IPI)",
                "Nivolumab (NIV)",
                "Pazopanib (PAZ)",
                "Pembrolizumab (PEM)",
                "Regorafenib (REG)",
                "Sonidegib (SON)",
                "Sorafenib (SOR)",
                "Sunitinib (SUN)",
                "Talimogene Laherparepvec (TLH)",
                "Trametinib (TRA)",
                "Vemurafenib (VEM)",
                "Vismodegib (VIS)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Vemurafenib (Zelboraf)",
            "Imatinib (Gleevec)",
            "Cetuximab (Erbitux)",
            "Ipilimumab (Yervoy)",
            "Nilotinib (Tasigna)",
            "Brentuximab (Adcetris)",
            "Trametinib (Mekinist)",
            "Binimetinib (Mektovi)",
            "Pembrolizumab (Keytruda)",
            "Nivolumab (Opdivo)",
            "Cobimetinib (Cotellic)",
            "Vemurafenib + Cobimetinib (Cotellic)",
            "Dabrafenib (Tafinlar)",
            "Trametinib + Dabrafenib (Tafinlar + Mekinist)",
            "Buparlisib (Bempegaldesleukin)",
            "Selumetinib (Koselugo)",
            "Encorafenib (Braftovi)",
            "Binimetinib + Encorafenib (Pexa-vec)",
            "Pembrolizumab + Axitinib (Lynparza)",
            "Ceritinib (Zykadia)",
            "Alectinib (Alecensa)",
            "Crizotinib (Xalkori)",
            "Osimertinib (Tagrisso)",
            "Trametinib + Abemaciclib (Verzenio)",
            "Rucaparib (Rubraca)",
            "Ruxolitinib (Jakafi)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Vemurafenib (Zelboraf)",
                "Imatinib (Gleevec)",
                "Cetuximab (Erbitux)",
                "Ipilimumab (Yervoy)",
                "Nilotinib (Tasigna)",
                "Brentuximab (Adcetris)",
                "Trametinib (Mekinist)",
                "Binimetinib (Mektovi)",
                "Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Cobimetinib (Cotellic)",
                "Vemurafenib + Cobimetinib (Cotellic)",
                "Dabrafenib (Tafinlar)",
                "Trametinib + Dabrafenib (Tafinlar + Mekinist)",
                "Buparlisib (Bempegaldesleukin)",
                "Selumetinib (Koselugo)",
                "Encorafenib (Braftovi)",
                "Binimetinib + Encorafenib (Pexa-vec)",
                "Pembrolizumab + Axitinib (Lynparza)",
                "Ceritinib (Zykadia)",
                "Alectinib (Alecensa)",
                "Crizotinib (Xalkori)",
                "Osimertinib (Tagrisso)",
                "Trametinib + Abemaciclib (Verzenio)"
            ],
            "mismatches": [
                "Rucaparib (Rubraca)",
                "Ruxolitinib (Jakafi)"
            ],
            "true_referents": [
                "Alectinib (Alecensa)",
                "Binimetinib (Mektovi)",
                "Binimetinib + Encorafenib (Pexa-vec)",
                "Brentuximab (Adcetris)",
                "Buparlisib (Bempegaldesleukin)",
                "Ceritinib (Zykadia)",
                "Cetuximab (Erbitux)",
                "Cobimetinib (Cotellic)",
                "Crizotinib (Xalkori)",
                "Dabrafenib (Tafinlar)",
                "Encorafenib (Braftovi)",
                "Imatinib (Gleevec)",
                "Ipilimumab (Yervoy)",
                "Nilotinib (Tasigna)",
                "Nivolumab (Opdivo)",
                "Osimertinib (Tagrisso)",
                "Pembrolizumab (Keytruda)",
                "Pembrolizumab + Axitinib (Lynparza)",
                "Selumetinib (Koselugo)",
                "Trametinib (Mekinist)",
                "Trametinib + Abemaciclib (Verzenio)",
                "Trametinib + Dabrafenib (Tafinlar + Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Vemurafenib + Cobimetinib (Cotellic)"
            ],
            "TP": 24,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "Alecensa (ALC)",
            "Akt inhibitor (GSK690693)",
            "Avelumab (BAVENCIO)",
            "Bafetinib (INNO-406)",
            "Benzene (C6H6)",
            "Cabozantinib (COMETRIQ)",
            "Cemiplimab (LIBTAYO)",
            "Cetuximab (ERBITUX)",
            "Dabrafenib (TAFINLAR)",
            "Encorafenib (BRAFTOVI)",
            "Erlotinib (TARCEVA)",
            "Ibrutinib (IMBRUVICA)",
            "Ipilimumab (YERVOY)",
            "Imatinib (GLEEVEC)",
            "Imiquimod (ALDARA)",
            "Immunocytokine (E40)",
            "Interferon alfa-2b (INTRON A)",
            "Mitomycin (MITOMYCIN-C)",
            "Nivolumab (OPDIVO)",
            "Peginterferon alfa-2b (PEG-INTRON)",
            "Pembrolizumab (KEYTRUDA)",
            "Sonidegib (ODOMZO)",
            "Sorafenib (NEXAVAR)",
            "Trametinib (MEKINIST)",
            "Vemurafenib (ZELBORAF)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alecensa (ALC)",
                "Akt inhibitor (GSK690693)",
                "Avelumab (BAVENCIO)",
                "Bafetinib (INNO-406)",
                "Benzene (C6H6)",
                "Cabozantinib (COMETRIQ)",
                "Cemiplimab (LIBTAYO)",
                "Cetuximab (ERBITUX)",
                "Dabrafenib (TAFINLAR)",
                "Encorafenib (BRAFTOVI)",
                "Erlotinib (TARCEVA)",
                "Ibrutinib (IMBRUVICA)",
                "Ipilimumab (YERVOY)",
                "Imatinib (GLEEVEC)",
                "Imiquimod (ALDARA)",
                "Immunocytokine (E40)",
                "Interferon alfa-2b (INTRON A)",
                "Mitomycin (MITOMYCIN-C)",
                "Nivolumab (OPDIVO)",
                "Peginterferon alfa-2b (PEG-INTRON)",
                "Pembrolizumab (KEYTRUDA)",
                "Sonidegib (ODOMZO)",
                "Sorafenib (NEXAVAR)",
                "Trametinib (MEKINIST)"
            ],
            "mismatches": [
                "Vemurafenib (ZELBORAF)"
            ],
            "true_referents": [
                "Akt inhibitor (GSK690693)",
                "Alecensa (ALC)",
                "Avelumab (BAVENCIO)",
                "Bafetinib (INNO-406)",
                "Benzene (C6H6)",
                "Cabozantinib (COMETRIQ)",
                "Cemiplimab (LIBTAYO)",
                "Cetuximab (ERBITUX)",
                "Dabrafenib (TAFINLAR)",
                "Encorafenib (BRAFTOVI)",
                "Erlotinib (TARCEVA)",
                "Ibrutinib (IMBRUVICA)",
                "Imatinib (GLEEVEC)",
                "Imiquimod (ALDARA)",
                "Immunocytokine (E40)",
                "Interferon alfa-2b (INTRON A)",
                "Ipilimumab (YERVOY)",
                "Mitomycin (MITOMYCIN-C)",
                "Nivolumab (OPDIVO)",
                "Peginterferon alfa-2b (PEG-INTRON)",
                "Pembrolizumab (KEYTRUDA)",
                "Sonidegib (ODOMZO)",
                "Sorafenib (NEXAVAR)",
                "Trametinib (MEKINIST)"
            ],
            "TP": 24,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for skin cancer",
        "domain": "medicine",
        "response": [
            "5-Fluorouracil (5-FU)",
            "Afatinib (BIBW 2992)",
            "Ado-Trastuzumab Emtansine (Kadcyla)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)",
            "Ado-Trastuzumab Emtansine (T-DM1)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "5-Fluorouracil (5-FU)",
                "Afatinib (BIBW 2992)",
                "Ado-Trastuzumab Emtansine (Kadcyla)",
                "Ado-Trastuzumab Emtansine (T-DM1)"
            ],
            "mismatches": [],
            "true_referents": [
                "5-Fluorouracil (5-FU)",
                "Ado-Trastuzumab Emtansine (Kadcyla)",
                "Ado-Trastuzumab Emtansine (T-DM1)",
                "Afatinib (BIBW 2992)"
            ],
            "TP": 4,
            "FP": 0,
            "FN": 0
        }
    }
]