[
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone (ABR)",
            "Bicalutamide (BIC)",
            "Docetaxel (DOC)",
            "Enzalutamide (ENZ)",
            "Flutamide (FLT)",
            "Lutetium-177 PSMA-617 (Lu-177 PSMA)",
            "Nilutamide (NIL)",
            "Palbociclib (PAL)",
            "Radium-223 dichloride (Ra-223)",
            "Rivaroxaban (RIV)",
            "Sipuleucel-T (SIP)",
            "Talazoparib (TAZ)",
            "Temozolomide (TEM)",
            "Toremifene (TOR)",
            "Vandetanib (VAN)",
            "Abiraterone acetate (AA)",
            "Cabazitaxel (CAZ)",
            "Dalantercept (DAL)",
            "Denosumab (DENO)",
            "Doxorubicin (DOX)",
            "Eribulin (ERI)",
            "Ipilimumab (IPI)",
            "Nivolumab (NIVO)",
            "Olaparib (OLAP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone (ABR)",
                "Bicalutamide (BIC)",
                "Docetaxel (DOC)",
                "Enzalutamide (ENZ)",
                "Flutamide (FLT)",
                "Lutetium-177 PSMA-617 (Lu-177 PSMA)",
                "Nilutamide (NIL)",
                "Palbociclib (PAL)",
                "Radium-223 dichloride (Ra-223)",
                "Rivaroxaban (RIV)",
                "Sipuleucel-T (SIP)",
                "Talazoparib (TAZ)",
                "Temozolomide (TEM)",
                "Toremifene (TOR)",
                "Vandetanib (VAN)",
                "Abiraterone acetate (AA)",
                "Cabazitaxel (CAZ)",
                "Dalantercept (DAL)",
                "Denosumab (DENO)",
                "Doxorubicin (DOX)",
                "Eribulin (ERI)",
                "Ipilimumab (IPI)",
                "Nivolumab (NIVO)",
                "Olaparib (OLAP)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (ABR)",
                "Abiraterone acetate (AA)",
                "Bicalutamide (BIC)",
                "Cabazitaxel (CAZ)",
                "Dalantercept (DAL)",
                "Denosumab (DENO)",
                "Docetaxel (DOC)",
                "Doxorubicin (DOX)",
                "Enzalutamide (ENZ)",
                "Eribulin (ERI)",
                "Flutamide (FLT)",
                "Ipilimumab (IPI)",
                "Lutetium-177 PSMA-617 (Lu-177 PSMA)",
                "Nilutamide (NIL)",
                "Nivolumab (NIVO)",
                "Olaparib (OLAP)",
                "Palbociclib (PAL)",
                "Radium-223 dichloride (Ra-223)",
                "Rivaroxaban (RIV)",
                "Sipuleucel-T (SIP)",
                "Talazoparib (TAZ)",
                "Temozolomide (TEM)",
                "Toremifene (TOR)",
                "Vandetanib (VAN)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "phi-v4",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone acetate (Zytiga)",
            "Enzalutamide (Xtandi)",
            "Apalutamide (Erleada)",
            "Darolutamide (Nubeqa)",
            "Docetaxel (Taxotere)",
            "Cabazitaxel (Jevtana)",
            "Sipuleucel-T (Provenge)",
            "Leuprolide acetate (Lupron)",
            "Goserelin (Zoladex)",
            "Degarelix (Firmagon)",
            "Flutamide (Eulexin)",
            "Bicalutamide (Casodex)",
            "Nilutamide (Nilandron)",
            "Docetaxel in combination with prednisone (Taxotere with Prednisone)",
            "Cabazitaxel in combination with prednisone (Jevtana with Prednisone)",
            "Abiraterone acetate in combination with prednisone (Zytiga with Prednisone)",
            "Enzalutamide in combination with leuprolide (Xtandi with Lupron)",
            "Apalutamide in combination with leuprolide (Erleada with Lupron)",
            "Darolutamide in combination with leuprolide (Nubeqa with Lupron)",
            "Leuprolide acetate in combination with flutamide (Lupron with Eulexin)",
            "Leuprolide acetate in combination with bicalutamide (Lupron with Casodex)",
            "Degarelix in combination with bicalutamide (Firmagon with Casodex)",
            "Goserelin in combination with flutamide (Zoladex with Eulexin)",
            "Goserelin in combination with bicalutamide (Zoladex with Casodex)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone acetate (Zytiga)",
                "Enzalutamide (Xtandi)",
                "Apalutamide (Erleada)",
                "Darolutamide (Nubeqa)",
                "Docetaxel (Taxotere)",
                "Cabazitaxel (Jevtana)",
                "Sipuleucel-T (Provenge)",
                "Leuprolide acetate (Lupron)",
                "Goserelin (Zoladex)",
                "Degarelix (Firmagon)",
                "Flutamide (Eulexin)",
                "Bicalutamide (Casodex)",
                "Nilutamide (Nilandron)",
                "Docetaxel in combination with prednisone (Taxotere with Prednisone)",
                "Cabazitaxel in combination with prednisone (Jevtana with Prednisone)",
                "Abiraterone acetate in combination with prednisone (Zytiga with Prednisone)",
                "Enzalutamide in combination with leuprolide (Xtandi with Lupron)",
                "Apalutamide in combination with leuprolide (Erleada with Lupron)",
                "Darolutamide in combination with leuprolide (Nubeqa with Lupron)",
                "Leuprolide acetate in combination with flutamide (Lupron with Eulexin)",
                "Leuprolide acetate in combination with bicalutamide (Lupron with Casodex)",
                "Degarelix in combination with bicalutamide (Firmagon with Casodex)",
                "Goserelin in combination with flutamide (Zoladex with Eulexin)",
                "Goserelin in combination with bicalutamide (Zoladex with Casodex)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone acetate (Zytiga)",
                "Abiraterone acetate in combination with prednisone (Zytiga with Prednisone)",
                "Apalutamide (Erleada)",
                "Apalutamide in combination with leuprolide (Erleada with Lupron)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Cabazitaxel in combination with prednisone (Jevtana with Prednisone)",
                "Darolutamide (Nubeqa)",
                "Darolutamide in combination with leuprolide (Nubeqa with Lupron)",
                "Degarelix (Firmagon)",
                "Degarelix in combination with bicalutamide (Firmagon with Casodex)",
                "Docetaxel (Taxotere)",
                "Docetaxel in combination with prednisone (Taxotere with Prednisone)",
                "Enzalutamide (Xtandi)",
                "Enzalutamide in combination with leuprolide (Xtandi with Lupron)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Goserelin in combination with bicalutamide (Zoladex with Casodex)",
                "Goserelin in combination with flutamide (Zoladex with Eulexin)",
                "Leuprolide acetate (Lupron)",
                "Leuprolide acetate in combination with bicalutamide (Lupron with Casodex)",
                "Leuprolide acetate in combination with flutamide (Lupron with Eulexin)",
                "Nilutamide (Nilandron)",
                "Sipuleucel-T (Provenge)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone acetate (Zytiga)",
            "Apalutamide (Erleada)",
            "Bicalutamide (Casodex)",
            "Cabazitaxel (Jevtana)",
            "Darolutamide (Nubeqa)",
            "Degarelix (Firmagon)",
            "Docetaxel",
            "Enzalutamide (Xtandi)",
            "Fluoxymesterone (Halotestin)",
            "Goserelin (Zoladex)",
            "Leuprolide acetate (Lupron)",
            "Mitoxantrone",
            "Orteronel",
            "Prednisone",
            "Sipuleucel-T (Provenge)",
            "Steroidal antiandrogens",
            "Triptorelin (Trelstar)",
            "Enzalutamide (Xtandi)",
            "Abiraterone acetate (Zytiga)",
            "Apalutamide (Erleada)",
            "Cabazitaxel (Jevtana)",
            "Darolutamide (Nubeqa)",
            "Degarelix (Firmagon)",
            "Docetaxel"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Docetaxel",
                "Enzalutamide (Xtandi)",
                "Fluoxymesterone (Halotestin)",
                "Goserelin (Zoladex)",
                "Leuprolide acetate (Lupron)",
                "Mitoxantrone",
                "Orteronel",
                "Prednisone",
                "Sipuleucel-T (Provenge)",
                "Steroidal antiandrogens",
                "Triptorelin (Trelstar)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Docetaxel",
                "Enzalutamide (Xtandi)",
                "Fluoxymesterone (Halotestin)",
                "Goserelin (Zoladex)",
                "Leuprolide acetate (Lupron)",
                "Mitoxantrone",
                "Orteronel",
                "Prednisone",
                "Sipuleucel-T (Provenge)",
                "Steroidal antiandrogens",
                "Triptorelin (Trelstar)"
            ],
            "TP": 17,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gemma-3",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Leuprolide (Leu)",
            "Goserelin (Gos)",
            "Triptorelin (Trip)",
            "Bicalutamide (Bic)",
            "Flutamide (Flu)",
            "Nilutamide (Nil)",
            "Enzalutamide (Enz)",
            "Apicalutamide (Apal)",
            "Darolutamide (Dar)",
            "Abiraterone acetate (Abi)",
            "Prednisone (Pred)",
            "Docetaxel (Doc)",
            "Cabazitaxel (Cab)",
            "Estramustine (Estr)",
            "Vinorelbine (Vin)",
            "Mitoxantrone (Mit)",
            "Radium-223 dichloride (Ra-223)",
            "Ipilimumab (Ipi)",
            "Pembrolizumab (Pemb)",
            "Sipuleucel-T (Sip)",
            "Denosumab (Den)",
            "Zoledronic acid (Zol)",
            "Ketoconazole (Ket)",
            "Orteronel (Ort)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Leuprolide (Leu)",
                "Goserelin (Gos)",
                "Triptorelin (Trip)",
                "Bicalutamide (Bic)",
                "Flutamide (Flu)",
                "Nilutamide (Nil)",
                "Enzalutamide (Enz)",
                "Apicalutamide (Apal)",
                "Darolutamide (Dar)",
                "Abiraterone acetate (Abi)",
                "Prednisone (Pred)",
                "Docetaxel (Doc)",
                "Cabazitaxel (Cab)",
                "Estramustine (Estr)",
                "Vinorelbine (Vin)",
                "Mitoxantrone (Mit)",
                "Radium-223 dichloride (Ra-223)",
                "Ipilimumab (Ipi)",
                "Pembrolizumab (Pemb)",
                "Sipuleucel-T (Sip)",
                "Denosumab (Den)",
                "Zoledronic acid (Zol)",
                "Ketoconazole (Ket)",
                "Orteronel (Ort)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone acetate (Abi)",
                "Apicalutamide (Apal)",
                "Bicalutamide (Bic)",
                "Cabazitaxel (Cab)",
                "Darolutamide (Dar)",
                "Denosumab (Den)",
                "Docetaxel (Doc)",
                "Enzalutamide (Enz)",
                "Estramustine (Estr)",
                "Flutamide (Flu)",
                "Goserelin (Gos)",
                "Ipilimumab (Ipi)",
                "Ketoconazole (Ket)",
                "Leuprolide (Leu)",
                "Mitoxantrone (Mit)",
                "Nilutamide (Nil)",
                "Orteronel (Ort)",
                "Pembrolizumab (Pemb)",
                "Prednisone (Pred)",
                "Radium-223 dichloride (Ra-223)",
                "Sipuleucel-T (Sip)",
                "Triptorelin (Trip)",
                "Vinorelbine (Vin)",
                "Zoledronic acid (Zol)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Leuprolide (Lupron)",
            "Goserelin (Zoladex)",
            "Triptorelin (Trelstar)",
            "Degarelix (Firmagon)",
            "Bicalutamide (Casodex)",
            "Flutamide (Eulexin)",
            "Nilutamide (Nilandron)",
            "Enzalutamide (Xtandi)",
            "Apalutamide (Erleada)",
            "Darolutamide (Nubeqa)",
            "Abiraterone (Zytiga)",
            "Cabazitaxel (Jevtana)",
            "Docetaxel (Taxotere)",
            "Estramustine (Emcyt)",
            "Sipuleucel-T (Provenge)",
            "Radium-223 dichloride (Xofigo)",
            "Mitoxantrone (Novantrone)",
            "Ketoconazole (Nizoral)",
            "Finasteride (Proscar)",
            "Dutasteride (Avodart)",
            "Toremifene (Fareston)",
            "Diethylstilbestrol (DES)",
            "Cyclophosphamide (Cytoxan)",
            "Cabozantinib (Cometriq)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Leuprolide (Lupron)",
                "Goserelin (Zoladex)",
                "Triptorelin (Trelstar)",
                "Degarelix (Firmagon)",
                "Bicalutamide (Casodex)",
                "Flutamide (Eulexin)",
                "Nilutamide (Nilandron)",
                "Enzalutamide (Xtandi)",
                "Apalutamide (Erleada)",
                "Darolutamide (Nubeqa)",
                "Abiraterone (Zytiga)",
                "Cabazitaxel (Jevtana)",
                "Docetaxel (Taxotere)",
                "Estramustine (Emcyt)",
                "Sipuleucel-T (Provenge)",
                "Radium-223 dichloride (Xofigo)",
                "Mitoxantrone (Novantrone)",
                "Ketoconazole (Nizoral)",
                "Finasteride (Proscar)",
                "Dutasteride (Avodart)",
                "Toremifene (Fareston)",
                "Diethylstilbestrol (DES)",
                "Cyclophosphamide (Cytoxan)",
                "Cabozantinib (Cometriq)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Cabozantinib (Cometriq)",
                "Cyclophosphamide (Cytoxan)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Diethylstilbestrol (DES)",
                "Docetaxel (Taxotere)",
                "Dutasteride (Avodart)",
                "Enzalutamide (Xtandi)",
                "Estramustine (Emcyt)",
                "Finasteride (Proscar)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Ketoconazole (Nizoral)",
                "Leuprolide (Lupron)",
                "Mitoxantrone (Novantrone)",
                "Nilutamide (Nilandron)",
                "Radium-223 dichloride (Xofigo)",
                "Sipuleucel-T (Provenge)",
                "Toremifene (Fareston)",
                "Triptorelin (Trelstar)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone (ABI)",
            "Enzalutamide (ENZ)",
            "Docetaxel (DOC)",
            "Cabazitaxel (CAB)",
            "Sipuleucel-T (SIP)",
            "Radium-223 (RAD)",
            "Lutetium-177 (LUT)",
            "Bicalutamide (BIC)",
            "Nilutamide (NIL)",
            "Flutamide (FLU)",
            "Atezolizumab (ATE)",
            "Pembrolizumab (PEM)",
            "Darolutamide (DAR)",
            "Apalutamide (APA)",
            "Zytiga (ZYT)",
            "Xtandi (XTA)",
            "Taxotere (TAX)",
            "Jevtana (JEV)",
            "Provenge (PRO)",
            "Xofigo (XOF)",
            "Lu-177-PSMA-617 (PSM)",
            "Orgovyx (ORG)",
            "Relugolix (REL)",
            "Enzalutamide + Docetaxel (EDC)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone (ABI)",
                "Enzalutamide (ENZ)",
                "Docetaxel (DOC)",
                "Cabazitaxel (CAB)",
                "Sipuleucel-T (SIP)",
                "Radium-223 (RAD)",
                "Lutetium-177 (LUT)",
                "Bicalutamide (BIC)",
                "Nilutamide (NIL)",
                "Flutamide (FLU)",
                "Atezolizumab (ATE)",
                "Pembrolizumab (PEM)",
                "Darolutamide (DAR)",
                "Apalutamide (APA)",
                "Zytiga (ZYT)",
                "Xtandi (XTA)",
                "Taxotere (TAX)",
                "Jevtana (JEV)",
                "Provenge (PRO)",
                "Xofigo (XOF)",
                "Lu-177-PSMA-617 (PSM)",
                "Orgovyx (ORG)",
                "Relugolix (REL)",
                "Enzalutamide + Docetaxel (EDC)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (ABI)",
                "Apalutamide (APA)",
                "Atezolizumab (ATE)",
                "Bicalutamide (BIC)",
                "Cabazitaxel (CAB)",
                "Darolutamide (DAR)",
                "Docetaxel (DOC)",
                "Enzalutamide (ENZ)",
                "Enzalutamide + Docetaxel (EDC)",
                "Flutamide (FLU)",
                "Jevtana (JEV)",
                "Lu-177-PSMA-617 (PSM)",
                "Lutetium-177 (LUT)",
                "Nilutamide (NIL)",
                "Orgovyx (ORG)",
                "Pembrolizumab (PEM)",
                "Provenge (PRO)",
                "Radium-223 (RAD)",
                "Relugolix (REL)",
                "Sipuleucel-T (SIP)",
                "Taxotere (TAX)",
                "Xofigo (XOF)",
                "Xtandi (XTA)",
                "Zytiga (ZYT)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4-32k",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone (Zytiga)",
            "Enzalutamide (Xtandi)",
            "Bicalutamide (Casodex)",
            "Flutamide (Eulexin)",
            "Nilutamide (Nilandron)",
            "Degarelix (Firmagon)",
            "Leuprolide (Lupron)",
            "Triptorelin (Trelstar)",
            "Goserelin (Zoladex)",
            "Cabazitaxel (Jevtana)",
            "Docetaxel (Taxotere)",
            "Mitoxantrone (Novantrone)",
            "Radium-223 dichloride (Xofigo)",
            "Sipuleucel-T (Provenge)",
            "Pembrolizumab (Keytruda)",
            "Apalutamide (Erleada)",
            "Darolutamide (Nubeqa)",
            "Prednisone",
            "Hydrocortisone",
            "Dexamethasone",
            "Estramustine (Emcyt)",
            "Procarbazine (Matulane)",
            "Strontium-89 (Metastron)",
            "Samarium-153 (Quadramet)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Dexamethasone",
                "Docetaxel (Taxotere)",
                "Enzalutamide (Xtandi)",
                "Estramustine (Emcyt)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Hydrocortisone",
                "Leuprolide (Lupron)",
                "Mitoxantrone (Novantrone)",
                "Nilutamide (Nilandron)",
                "Pembrolizumab (Keytruda)",
                "Prednisone",
                "Procarbazine (Matulane)",
                "Radium-223 dichloride (Xofigo)",
                "Samarium-153 (Quadramet)",
                "Sipuleucel-T (Provenge)",
                "Strontium-89 (Metastron)",
                "Triptorelin (Trelstar)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Dexamethasone",
                "Docetaxel (Taxotere)",
                "Enzalutamide (Xtandi)",
                "Estramustine (Emcyt)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Hydrocortisone",
                "Leuprolide (Lupron)",
                "Mitoxantrone (Novantrone)",
                "Nilutamide (Nilandron)",
                "Pembrolizumab (Keytruda)",
                "Prednisone",
                "Procarbazine (Matulane)",
                "Radium-223 dichloride (Xofigo)",
                "Samarium-153 (Quadramet)",
                "Sipuleucel-T (Provenge)",
                "Strontium-89 (Metastron)",
                "Triptorelin (Trelstar)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Leuprolide (LUP)",
            "Goserelin (GOS)",
            "Bicalutamide (BIC)",
            "Degarelix (DEG)",
            "Abiraterone (ABI)",
            "Enzalutamide (ENZ)",
            "Apalutamide (APA)",
            "Darolutamide (DAR)",
            "Radium-223 (RAD)",
            "Docetaxel (DOC)",
            "Cabazitaxel (CAB)",
            "Mitoxantrone (MIT)",
            "Sipuleucel-T (SIP)",
            "Pembrolizumab (PEM)",
            "Nivolumab (NIV)",
            "Ipilimumab (IPI)",
            "Rucaparib (RUC)",
            "Olaparib (OLA)",
            "Enzalutamide (ENZ)",
            "Abiraterone (ABI)",
            "Apalutamide (APA)",
            "Darolutamide (DAR)",
            "Radium-223 (RAD)",
            "Docetaxel (DOC)",
            "Cabazitaxel (CAB)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Leuprolide (LUP)",
                "Goserelin (GOS)",
                "Bicalutamide (BIC)",
                "Degarelix (DEG)",
                "Abiraterone (ABI)",
                "Enzalutamide (ENZ)",
                "Apalutamide (APA)",
                "Darolutamide (DAR)",
                "Radium-223 (RAD)",
                "Docetaxel (DOC)",
                "Cabazitaxel (CAB)",
                "Mitoxantrone (MIT)",
                "Sipuleucel-T (SIP)",
                "Pembrolizumab (PEM)",
                "Nivolumab (NIV)",
                "Ipilimumab (IPI)",
                "Rucaparib (RUC)",
                "Olaparib (OLA)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (ABI)",
                "Apalutamide (APA)",
                "Bicalutamide (BIC)",
                "Cabazitaxel (CAB)",
                "Darolutamide (DAR)",
                "Degarelix (DEG)",
                "Docetaxel (DOC)",
                "Enzalutamide (ENZ)",
                "Goserelin (GOS)",
                "Ipilimumab (IPI)",
                "Leuprolide (LUP)",
                "Mitoxantrone (MIT)",
                "Nivolumab (NIV)",
                "Olaparib (OLA)",
                "Pembrolizumab (PEM)",
                "Radium-223 (RAD)",
                "Rucaparib (RUC)",
                "Sipuleucel-T (SIP)"
            ],
            "TP": 18,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "o1-mini",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone acetate (Zytiga)",
            "Apalutamide (Erleada)",
            "Enzalutamide (Xtandi)",
            "Docetaxel (Taxotere)",
            "Cabazitaxel (Jevtana)",
            "Leuprolide (Lupron)",
            "Goserelin (Zoladex)",
            "Degarelix (Firmagon)",
            "Nilutamide (Nilandron)",
            "Flutamide (Eulexin)",
            "Bicalutamide (Casodex)",
            "Sipuleucel-T (Provenge)",
            "Radium-223 dichloride (Xofigo)",
            "Olaparib (Lynparza)",
            "Darolutamide (Nubeqa)",
            "Estramustine phosphate (Emcyt)",
            "Mitoxantrone (Novantrone)",
            "Pembrolizumab (Keytruda)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Enzalutamide (Xtandi)",
                "Docetaxel (Taxotere)",
                "Cabazitaxel (Jevtana)",
                "Leuprolide (Lupron)",
                "Goserelin (Zoladex)",
                "Degarelix (Firmagon)",
                "Nilutamide (Nilandron)",
                "Flutamide (Eulexin)",
                "Bicalutamide (Casodex)",
                "Sipuleucel-T (Provenge)",
                "Radium-223 dichloride (Xofigo)",
                "Olaparib (Lynparza)",
                "Darolutamide (Nubeqa)",
                "Estramustine phosphate (Emcyt)",
                "Mitoxantrone (Novantrone)",
                "Pembrolizumab (Keytruda)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Docetaxel (Taxotere)",
                "Enzalutamide (Xtandi)",
                "Estramustine phosphate (Emcyt)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Leuprolide (Lupron)",
                "Mitoxantrone (Novantrone)",
                "Nilutamide (Nilandron)",
                "Olaparib (Lynparza)",
                "Pembrolizumab (Keytruda)",
                "Radium-223 dichloride (Xofigo)",
                "Sipuleucel-T (Provenge)"
            ],
            "TP": 18,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone (Zytiga)",
            "Enzalutamide (Xtandi)",
            "Leuprolide (Lupron)",
            "Goserelin (Zoladex)",
            "Triptorelin (Trelstar)",
            "Degarelix (Firmagon)",
            "Bicalutamide (Casodex)",
            "Flutamide (Eulexin)",
            "Nilutamide (Nilandron)",
            "Docetaxel (Taxotere)",
            "Cabazitaxel (Jevtana)",
            "Sipuleucel-T (Provenge)",
            "Apalutamide (Erleada)",
            "Darolutamide (Nubeqa)",
            "Relugolix (Orgovyx)",
            "Radium-223 (Xofigo)",
            "Finasteride (Proscar)",
            "Dutasteride (Avodart)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone (Zytiga)",
                "Enzalutamide (Xtandi)",
                "Leuprolide (Lupron)",
                "Goserelin (Zoladex)",
                "Triptorelin (Trelstar)",
                "Degarelix (Firmagon)",
                "Bicalutamide (Casodex)",
                "Flutamide (Eulexin)",
                "Nilutamide (Nilandron)",
                "Docetaxel (Taxotere)",
                "Cabazitaxel (Jevtana)",
                "Sipuleucel-T (Provenge)",
                "Apalutamide (Erleada)",
                "Darolutamide (Nubeqa)",
                "Relugolix (Orgovyx)",
                "Radium-223 (Xofigo)",
                "Finasteride (Proscar)",
                "Dutasteride (Avodart)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Docetaxel (Taxotere)",
                "Dutasteride (Avodart)",
                "Enzalutamide (Xtandi)",
                "Finasteride (Proscar)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Leuprolide (Lupron)",
                "Nilutamide (Nilandron)",
                "Radium-223 (Xofigo)",
                "Relugolix (Orgovyx)",
                "Sipuleucel-T (Provenge)",
                "Triptorelin (Trelstar)"
            ],
            "TP": 18,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone acetate (Zytiga)",
            "Apalutamide (Erleada)",
            "Bicalutamide (Casodex)",
            "Cabazitaxel (Jevtana)",
            "Darolutamide (Nubeqa)",
            "Degarelix (Firmagon)",
            "Docetaxel (Taxotere)",
            "Enzalutamide (Xtandi)",
            "Estramustine (Emcyt)",
            "Flutamide (Eulexin)",
            "Goserelin (Zoladex)",
            "Histrelin (Vantas)",
            "Leuprolide (Lupron)",
            "Mitoxantrone (Novantrone)",
            "Nilutamide (Nilandron)",
            "Prednisone",
            "Radium-223 (Xofigo)",
            "Relugolix (Orgovyx)",
            "Sipuleucel-T (Provenge)",
            "Triptorelin (Trelstar)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Docetaxel (Taxotere)",
                "Enzalutamide (Xtandi)",
                "Estramustine (Emcyt)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Histrelin (Vantas)",
                "Leuprolide (Lupron)",
                "Mitoxantrone (Novantrone)",
                "Nilutamide (Nilandron)",
                "Prednisone",
                "Radium-223 (Xofigo)",
                "Relugolix (Orgovyx)",
                "Sipuleucel-T (Provenge)",
                "Triptorelin (Trelstar)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Docetaxel (Taxotere)",
                "Enzalutamide (Xtandi)",
                "Estramustine (Emcyt)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Histrelin (Vantas)",
                "Leuprolide (Lupron)",
                "Mitoxantrone (Novantrone)",
                "Nilutamide (Nilandron)",
                "Prednisone",
                "Radium-223 (Xofigo)",
                "Relugolix (Orgovyx)",
                "Sipuleucel-T (Provenge)",
                "Triptorelin (Trelstar)"
            ],
            "TP": 20,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Leuprolide (LUPRON)",
            "Goserelin (ZOLADEX)",
            "Triptorelin (TRELSTAR)",
            "Histrelin (VANTAS)",
            "Degarelix (FIRMAGON)",
            "Abiraterone (ZYTIGA)",
            "Enzalutamide (XTANDI)",
            "Apalutamide (ERLEADA)",
            "Darolutamide (NUBEQA)",
            "Docetaxel (TAXOTERE)",
            "Cabazitaxel (JEVTANA)",
            "Sipuleucel-T (PROVENGE)",
            "Radium-223 (XOFIGO)",
            "Bicalutamide (CASODEX)",
            "Flutamide (EULEXIN)",
            "Nilutamide (NILANDRON)",
            "Ketoconazole",
            "Estramustine (EMCYT)",
            "Mitoxantrone (NOVANTRONE)",
            "Prednisone",
            "Dexamethasone",
            "Hydrocortisone",
            "Cyproterone",
            "Megestrol"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Leuprolide (LUPRON)",
                "Goserelin (ZOLADEX)",
                "Triptorelin (TRELSTAR)",
                "Histrelin (VANTAS)",
                "Degarelix (FIRMAGON)",
                "Abiraterone (ZYTIGA)",
                "Enzalutamide (XTANDI)",
                "Apalutamide (ERLEADA)",
                "Darolutamide (NUBEQA)",
                "Docetaxel (TAXOTERE)",
                "Cabazitaxel (JEVTANA)",
                "Sipuleucel-T (PROVENGE)",
                "Radium-223 (XOFIGO)",
                "Bicalutamide (CASODEX)",
                "Flutamide (EULEXIN)",
                "Nilutamide (NILANDRON)",
                "Ketoconazole",
                "Estramustine (EMCYT)",
                "Mitoxantrone (NOVANTRONE)",
                "Prednisone",
                "Dexamethasone",
                "Hydrocortisone",
                "Cyproterone",
                "Megestrol"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (ZYTIGA)",
                "Apalutamide (ERLEADA)",
                "Bicalutamide (CASODEX)",
                "Cabazitaxel (JEVTANA)",
                "Cyproterone",
                "Darolutamide (NUBEQA)",
                "Degarelix (FIRMAGON)",
                "Dexamethasone",
                "Docetaxel (TAXOTERE)",
                "Enzalutamide (XTANDI)",
                "Estramustine (EMCYT)",
                "Flutamide (EULEXIN)",
                "Goserelin (ZOLADEX)",
                "Histrelin (VANTAS)",
                "Hydrocortisone",
                "Ketoconazole",
                "Leuprolide (LUPRON)",
                "Megestrol",
                "Mitoxantrone (NOVANTRONE)",
                "Nilutamide (NILANDRON)",
                "Prednisone",
                "Radium-223 (XOFIGO)",
                "Sipuleucel-T (PROVENGE)",
                "Triptorelin (TRELSTAR)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Abiraterone Acetate (Zytiga)",
            "Apalutamide (Erleada)",
            "Bicalutamide (Casodex)",
            "Cabazitaxel (Jevtana)",
            "Darolutamide (Nubeqa)",
            "Docetaxel (Taxotere)",
            "Enzalutamide (Xtandi)",
            "Flutamide (Eulexin)",
            "Goserelin (Zoladex)",
            "Leuprolide (Lupron)",
            "Nilutamide (Nilandron)",
            "Olaparib (Lynparza)",
            "Orteronel (Tivozanib)",
            "Paclitaxel (Taxol)",
            "Prednisone",
            "Radium-223 Dichloride (Xofigo)",
            "Rucaparib (Rubraca)",
            "Sipuleucel-T (Provenge)",
            "Talazoparib (Talzenna)",
            "Triptorelin (Trelstar)",
            "Vemurafenib (Zelboraf)",
            "Vinblastine (Velban)",
            "Vinorelbine (Navelbine)",
            "Zoledronic Acid (Zometa)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Abiraterone Acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Docetaxel (Taxotere)",
                "Enzalutamide (Xtandi)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Leuprolide (Lupron)",
                "Nilutamide (Nilandron)",
                "Olaparib (Lynparza)",
                "Orteronel (Tivozanib)",
                "Paclitaxel (Taxol)",
                "Prednisone",
                "Radium-223 Dichloride (Xofigo)",
                "Rucaparib (Rubraca)",
                "Sipuleucel-T (Provenge)",
                "Talazoparib (Talzenna)",
                "Triptorelin (Trelstar)",
                "Vemurafenib (Zelboraf)",
                "Vinblastine (Velban)",
                "Vinorelbine (Navelbine)",
                "Zoledronic Acid (Zometa)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone Acetate (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Cabazitaxel (Jevtana)",
                "Darolutamide (Nubeqa)",
                "Docetaxel (Taxotere)",
                "Enzalutamide (Xtandi)",
                "Flutamide (Eulexin)",
                "Goserelin (Zoladex)",
                "Leuprolide (Lupron)",
                "Nilutamide (Nilandron)",
                "Olaparib (Lynparza)",
                "Orteronel (Tivozanib)",
                "Paclitaxel (Taxol)",
                "Prednisone",
                "Radium-223 Dichloride (Xofigo)",
                "Rucaparib (Rubraca)",
                "Sipuleucel-T (Provenge)",
                "Talazoparib (Talzenna)",
                "Triptorelin (Trelstar)",
                "Vemurafenib (Zelboraf)",
                "Vinblastine (Velban)",
                "Vinorelbine (Navelbine)",
                "Zoledronic Acid (Zometa)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Bicalutamide (Casodex)",
            "Flutamide",
            "Nilutamide",
            "Abiraterone",
            "Enzalutamide",
            "Apalutamide",
            "Darolutamide",
            "Mitoxantrone",
            "Docetaxel",
            "Cabazitaxel",
            "Prednisone",
            "Leuprolide",
            "Goserelin",
            "Triptorelin",
            "Degarelix",
            "Relugolix",
            "Abarelix",
            "LHRH",
            "Zoladex",
            "Fareston",
            "Casodex",
            "Xtandi",
            "Nubeqa",
            "Erleada",
            "Nourite"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Bicalutamide (Casodex)",
                "Flutamide",
                "Nilutamide",
                "Abiraterone",
                "Enzalutamide",
                "Apalutamide",
                "Darolutamide",
                "Mitoxantrone",
                "Docetaxel",
                "Cabazitaxel",
                "Prednisone",
                "Leuprolide",
                "Goserelin",
                "Triptorelin",
                "Degarelix",
                "Relugolix",
                "Abarelix",
                "LHRH",
                "Zoladex",
                "Fareston",
                "Casodex",
                "Xtandi",
                "Nubeqa",
                "Erleada"
            ],
            "mismatches": [
                "Nourite"
            ],
            "true_referents": [
                "Abarelix",
                "Abiraterone",
                "Apalutamide",
                "Bicalutamide (Casodex)",
                "Cabazitaxel",
                "Casodex",
                "Darolutamide",
                "Degarelix",
                "Docetaxel",
                "Enzalutamide",
                "Erleada",
                "Fareston",
                "Flutamide",
                "Goserelin",
                "LHRH",
                "Leuprolide",
                "Mitoxantrone",
                "Nilutamide",
                "Nubeqa",
                "Prednisone",
                "Relugolix",
                "Triptorelin",
                "Xtandi",
                "Zoladex"
            ],
            "TP": 24,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": [
            "Bicalutamide (Casodex)",
            "Flutamide (Eulexin)",
            "Nilutamide (Nilandron)",
            "Enzalutamide (Xtandi)",
            "Apalutamide (Erleada)",
            "Darolutamide (Nubeqa)",
            "Abiraterone (Zytiga)",
            "Leuprolide (Lupron)",
            "Goserelin (Zoladex)",
            "Triptorelin (Trelstar)",
            "Histrelin (Vantas)",
            "Degarelix (Firmagon)",
            "Relugolix (Orgovyx)",
            "Enfortumab Vedotin (Padcev)",
            "Sipuleucel-T (Provenge)",
            "Cabazitaxel (Jevtana)",
            "Docetaxel (Taxotere)",
            "Estramustine (Emcyt)",
            "Mitoxantrone (Novantrone)",
            "Prednisone (Deltasone)",
            "Buserelin (Suprefact)",
            "Cetrorelix (Cetrotide)",
            "GnRH Triptorelin (Decapeptyl)",
            "Leuprolide acetate (Eligard)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Bicalutamide (Casodex)",
                "Flutamide (Eulexin)",
                "Nilutamide (Nilandron)",
                "Enzalutamide (Xtandi)",
                "Apalutamide (Erleada)",
                "Darolutamide (Nubeqa)",
                "Abiraterone (Zytiga)",
                "Leuprolide (Lupron)",
                "Goserelin (Zoladex)",
                "Triptorelin (Trelstar)",
                "Histrelin (Vantas)",
                "Degarelix (Firmagon)",
                "Relugolix (Orgovyx)",
                "Enfortumab Vedotin (Padcev)",
                "Sipuleucel-T (Provenge)",
                "Cabazitaxel (Jevtana)",
                "Docetaxel (Taxotere)",
                "Estramustine (Emcyt)",
                "Mitoxantrone (Novantrone)",
                "Prednisone (Deltasone)",
                "Buserelin (Suprefact)",
                "Cetrorelix (Cetrotide)",
                "GnRH Triptorelin (Decapeptyl)",
                "Leuprolide acetate (Eligard)"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone (Zytiga)",
                "Apalutamide (Erleada)",
                "Bicalutamide (Casodex)",
                "Buserelin (Suprefact)",
                "Cabazitaxel (Jevtana)",
                "Cetrorelix (Cetrotide)",
                "Darolutamide (Nubeqa)",
                "Degarelix (Firmagon)",
                "Docetaxel (Taxotere)",
                "Enfortumab Vedotin (Padcev)",
                "Enzalutamide (Xtandi)",
                "Estramustine (Emcyt)",
                "Flutamide (Eulexin)",
                "GnRH Triptorelin (Decapeptyl)",
                "Goserelin (Zoladex)",
                "Histrelin (Vantas)",
                "Leuprolide (Lupron)",
                "Leuprolide acetate (Eligard)",
                "Mitoxantrone (Novantrone)",
                "Nilutamide (Nilandron)",
                "Prednisone (Deltasone)",
                "Relugolix (Orgovyx)",
                "Sipuleucel-T (Provenge)",
                "Triptorelin (Trelstar)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for prostate cancer",
        "domain": "medicine",
        "response": "{\n    \"1\": \"Finasteride\" (Fin),\n    \"2\": \"Dutasteride\" (Dut),\n    \"3\": \"Apalutamide\" (Apa),\n    \"4\": \"Abiraterone\" (Abi),\n    \"5\": \"Enzalutamide\" (Enz),\n    \"6\": \"Bicalutamide\" (Bic),\n    \"7\": \"Nilutamide\" (Nil),\n    \"8\": \"Flutamide\" (Flu),\n    \"9\": \"Goserelin\" (Gos),\n    \"10\": \"Leuprolide\" (Lup),\n    \"11\": \"Triptorelin\" (Tript),\n    \"12\": \"Histrelin\" (Hist),\n    \"13\": \"Degarelix\" (Deg),\n    \"14\": \"Bicalutamide\" (Bic),\n    \"15\": \"Nilutamide\" (Nil),\n    \"16\": \"Flutamide\" (Flu),\n    \"17\": \"Goserelin\" (Gos),\n    \"18\": \"Leuprolide\" (Lup),\n    \"19\": \"Triptorelin\" (Tript),\n    \"20\": \"Histrelin\" (Hist),\n    \"21\": \"Degarelix\" (Deg),\n    \"22\": \"Abiraterone\" (Abi),\n    \"23\": \"Enzalutamide\" (Enz),\n    \"24\": \"Apalutamide\" (Apa)\n}",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    }
]