[
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (IM)",
            "Dasatinib",
            "Nilotinib",
            "Bosutinib",
            "Ponatinib",
            "Chlorambucil",
            "Cyclophosphamide",
            "Fludarabine",
            "Ibrutinib",
            "Venetoclax",
            "Obinutuzumab",
            "Ofatumumab",
            "Pentostatin",
            "Cladribine",
            "Alemtuzumab",
            "Bendamustine",
            "Lenalidomide",
            "Elotuzumab",
            "Daratumumab",
            "Midostaurin",
            "Blinatumomab",
            "Idecabtagene",
            "Tisagenlecleucel",
            "Pembrolizumab"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Dasatinib",
                "Nilotinib",
                "Bosutinib",
                "Chlorambucil",
                "Cyclophosphamide",
                "Fludarabine",
                "Ibrutinib",
                "Venetoclax",
                "Obinutuzumab",
                "Ofatumumab",
                "Cladribine",
                "Alemtuzumab",
                "Midostaurin",
                "Blinatumomab",
                "Tisagenlecleucel"
            ],
            "mismatches": [
                "Imatinib (IM)",
                "Ponatinib",
                "Pentostatin",
                "Bendamustine",
                "Lenalidomide",
                "Elotuzumab",
                "Daratumumab",
                "Idecabtagene",
                "Pembrolizumab"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arsenic Trioxide",
                "Arzerra (Ofatumumab)",
                "Bendamustine Hydrochloride",
                "Bendeka (Bendamustine Hydrochloride)",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Campath (Alemtuzumab)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Fludarabine Phosphate",
                "Gazyva (Obinutuzumab)",
                "Ibrutinib",
                "Idelalisib",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Kymriah (Tisagenlecleucel)",
                "Leukeran (Chlorambucil)",
                "Lisocabtagene Maraleucel",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Obinutuzumab",
                "Ofatumumab",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Treanda (Bendamustine Hydrochloride)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate"
            ],
            "TP": 15,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "phi-v4",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Neratinib (Nerlynx)",
            "Taselisib (Jelpidio)",
            "Ibrutinib (Imbruvica)",
            "Venetoclax (Venclexta)",
            "Azacitidine (Vidaza)",
            "Decitabine (Dacogen)",
            "Cytarabine (Ara-C)",
            "Daunorubicin (Daunomycin)",
            "Idarubicin (Idamycin)",
            "Etoposide (VP-16, VePesid)",
            "Cyclophosphamide (Cytoxan, Neosar)",
            "Fludarabine (Fludara)",
            "Cladribine (Leustatin)",
            "Hydroxyurea (Hydrea)",
            "Busulfan (Myleran)",
            "Melphalan (Alkeran)",
            "Carmustine (BCNU, BiCNU)",
            "Temozolomide (Temodar)",
            "Etoposide phosphate (ETP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ibrutinib (Imbruvica)",
                "Venetoclax (Venclexta)",
                "Cytarabine (Ara-C)",
                "Idarubicin (Idamycin)",
                "Cyclophosphamide (Cytoxan, Neosar)",
                "Cladribine (Leustatin)",
                "Hydroxyurea (Hydrea)",
                "Busulfan (Myleran)"
            ],
            "mismatches": [
                "Imatinib (Gleevec)",
                "Ponatinib (Iclusig)",
                "Neratinib (Nerlynx)",
                "Taselisib (Jelpidio)",
                "Azacitidine (Vidaza)",
                "Decitabine (Dacogen)",
                "Daunorubicin (Daunomycin)",
                "Etoposide (VP-16, VePesid)",
                "Fludarabine (Fludara)",
                "Melphalan (Alkeran)",
                "Carmustine (BCNU, BiCNU)",
                "Temozolomide (Temodar)",
                "Etoposide phosphate (ETP)"
            ],
            "true_referents": [
                "Azacitidine",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Brukinsa (Zanubrutinib)",
                "Busulfan",
                "Busulfex (Busulfan)",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Doxorubicin Hydrochloride",
                "Duvelisib",
                "Fludarabine Phosphate",
                "Gleevec (Imatinib Mesylate)",
                "Hydrea (Hydroxyurea)",
                "Hydroxyurea",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Idelalisib",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Leukeran (Chlorambucil)",
                "Myleran (Busulfan)",
                "Nelarabine",
                "Nilotinib",
                "Onureg (Azacitidine)",
                "Pemazyre (Pemigatinib)",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituxan Hycela (Rituximab and Hyaluronidase Human)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)"
            ],
            "TP": 11,
            "FP": 13,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Ruxolitinib (Jakafi)",
            "Vemurafenib (Zelboraf)",
            "Ibrutinib (Imbruvica)",
            "Idelalisib (Zydelig)",
            "Venetoclax (Venclexta)",
            "Omacetaxine (Synribo)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Tisagenlecleucel (Kymriah)",
            "Axicabtagene ciloleucel (Yescarta)",
            "Midostaurin (Rydapt)",
            "Enasidenib (Idhifa)",
            "Ivosidenib (Tibsovo)",
            "Gilteritinib (Xospata)",
            "Tagraxofusp (Elzonris)",
            "Clofarabine (Clolar)",
            "Cytarabine (Ara-C)",
            "Daunorubicin (Cerubidine)",
            "Doxorubicin (Adriamycin)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib Mesylate",
                "Dasatinib",
                "Nilotinib",
                "Bosutinib",
                "Ponatinib Hydrochloride",
                "Ibrutinib",
                "Idelalisib",
                "Venetoclax",
                "Omacetaxine Mepesuccinate",
                "Blinatumomab",
                "Inotuzumab Ozogamicin",
                "Tisagenlecleucel",
                "Midostaurin",
                "Enasidenib Mesylate",
                "Ivosidenib",
                "Gilteritinib Fumarate",
                "Tagraxofusp-erzs",
                "Clofarabine",
                "Cytarabine",
                "Daunorubicin Hydrochloride",
                "Doxorubicin Hydrochloride"
            ],
            "mismatches": [
                "Ruxolitinib (Jakafi)",
                "Vemurafenib (Zelboraf)",
                "Axicabtagene ciloleucel (Yescarta)",
                "Cytarabine (Ara-C)",
                "Daunorubicin (Cerubidine)",
                "Doxorubicin (Adriamycin)"
            ],
            "true_referents": [
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Dexamethasone",
                "Doxorubicin Hydrochloride",
                "Elzonris (Tagraxofusp-erzs)",
                "Enasidenib Mesylate",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Ivosidenib",
                "Kymriah (Tisagenlecleucel)",
                "Lisocabtagene Maraleucel",
                "Mercaptopurine",
                "Midostaurin",
                "Nelarabine",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Obinutuzumab",
                "Olutasidenib",
                "Omacetaxine Mepesuccinate",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tagraxofusp-erzs",
                "Tasigna (Nilotinib)",
                "Tibsovo (Ivosidenib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Xospata (Gilteritinib Fumarate)",
                "Zydelig (Idelalisib)"
            ],
            "TP": 21,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gemma-3",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (GLEEVEC)",
            "Dasatinib (SPRYCEL)",
            "Nilotinib (TASIGNA)",
            "Bosutinib (BOSTIN)",
            "Ponatinib (IKSA)",
            "Venetoclax (VENCLYXTO)",
            "Cladribine (LEUSTAT)",
            "Fludarabine (FLUDARA)",
            "Cytarabine (CYTOSAR-U)",
            "Daunorubicin (DAUNOMYCIN)",
            "Doxorubicin (ADRIAMYCIN)",
            "Idarubicin (IDAMYCIN)",
            "Mitoxantrone (NOVANTRON)",
            "Gemtuzumab ozogamicin (MYLOTARG)",
            "Nelarabine (ARABINEX)",
            "Omacetaxine mepesuccinate (SYNRIBO)",
            "Vorinostat (ZOPOLE)",
            "Romidepsin (ISTODAX)",
            "Brentuximab vedotin (ADYCEVO)",
            "Inotuzumab ozogamicin (BESPONSA)",
            "Blinatumomab (BLINCYTO)",
            "Tisagenlecleucel (KYMRIAH)",
            "Axicabtagene ciloleucel (YESCARTA)",
            "Lisocabtagene maraleucel (BREYANZI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (GLEEVEC)",
                "Dasatinib (SPRYCEL)",
                "Nilotinib (TASIGNA)",
                "Gemtuzumab ozogamicin (MYLOTARG)",
                "Nelarabine (ARABINEX)",
                "Omacetaxine mepesuccinate (SYNRIBO)",
                "Inotuzumab ozogamicin (BESPONSA)",
                "Blinatumomab (BLINCYTO)",
                "Tisagenlecleucel (KYMRIAH)",
                "Lisocabtagene maraleucel (BREYANZI)"
            ],
            "mismatches": [
                "Bosutinib (BOSTIN)",
                "Ponatinib (IKSA)",
                "Venetoclax (VENCLYXTO)",
                "Cladribine (LEUSTAT)",
                "Fludarabine (FLUDARA)",
                "Cytarabine (CYTOSAR-U)",
                "Daunorubicin (DAUNOMYCIN)",
                "Doxorubicin (ADRIAMYCIN)",
                "Idarubicin (IDAMYCIN)",
                "Mitoxantrone (NOVANTRON)",
                "Vorinostat (ZOPOLE)",
                "Romidepsin (ISTODAX)",
                "Brentuximab vedotin (ADYCEVO)",
                "Axicabtagene ciloleucel (YESCARTA)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Breyanzi (Lisocabtagene Maraleucel)",
                "Cladribine",
                "Clofarabine",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Dexamethasone",
                "Doxorubicin Hydrochloride",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Kymriah (Tisagenlecleucel)",
                "Lisocabtagene Maraleucel",
                "Midostaurin",
                "Mitoxantrone Hydrochloride",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Obinutuzumab",
                "Omacetaxine Mepesuccinate",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tagraxofusp-erzs",
                "Tasigna (Nilotinib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Trexall (Methotrexate Sodium)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Zydelig (Idelalisib)"
            ],
            "TP": 10,
            "FP": 14,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Ibrutinib (Imbruvica)",
            "Venetoclax (Venclexta)",
            "Acalabrutinib (Calquence)",
            "Enasidenib (Idhifa)",
            "Midostaurin (Rydapt)",
            "Gilteritinib (Xospata)",
            "Omacetaxine mepesuccinate (Synribo)",
            "Ruxolitinib (Jakafi)",
            "Bendamustine (Treanda)",
            "Fludarabine (Fludara)",
            "Cladribine (Leustatin)",
            "Clofarabine (Clolar)",
            "Nelarabine (Arranon)",
            "Tisagenlecleucel (Kymriah)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Obinutuzumab (Gazyva)",
            "Rituximab (Rituxan)",
            "Ofatumumab (Arzerra)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib Mesylate",
                "Dasatinib",
                "Nilotinib",
                "Bosutinib",
                "Ponatinib Hydrochloride",
                "Ibrutinib",
                "Venetoclax",
                "Acalabrutinib Maleate Monohydrate",
                "Enasidenib Mesylate",
                "Midostaurin",
                "Gilteritinib Fumarate",
                "Omacetaxine Mepesuccinate",
                "Bendamustine Hydrochloride",
                "Clofarabine",
                "Nelarabine",
                "Tisagenlecleucel",
                "Blinatumomab",
                "Inotuzumab Ozogamicin",
                "Obinutuzumab",
                "Rituximab",
                "Ofatumumab"
            ],
            "mismatches": [
                "Ruxolitinib (Jakafi)",
                "Fludarabine (Fludara)",
                "Cladribine (Leustatin)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Alemtuzumab",
                "Arranon (Nelarabine)",
                "Arzerra (Ofatumumab)",
                "Bendamustine Hydrochloride",
                "Bendeka (Bendamustine Hydrochloride)",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Dasatinib",
                "Dexamethasone",
                "Enasidenib Mesylate",
                "Fludarabine Phosphate",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Kymriah (Tisagenlecleucel)",
                "Mercaptopurine",
                "Midostaurin",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Olutasidenib",
                "Omacetaxine Mepesuccinate",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tasigna (Nilotinib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Treanda (Bendamustine Hydrochloride)",
                "Trexall (Methotrexate Sodium)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Xospata (Gilteritinib Fumarate)",
                "Zanubrutinib"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Venetoclax (Venclexta)",
            "Etoposide (VP-16)",
            "Cytarabine (Cytosar-U)",
            "Fludarabine (Fludara)",
            "Decitabine (Dacogen)",
            "Azacitidine (Vidaza)",
            "L-asparaginase (Elspar)",
            "Acalabrutinib (Calquence)",
            "Ruxolitinib (Jakafi)",
            "Midostaurin (Rydapt)",
            "Tisagenlecleucel (Kymriah)",
            "Clofarabine (Clolar)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Mylotarg (Gemtuzumab ozogamicin)",
            "Nelarabine (Arranon)",
            "Blincyto (Blinatumomab)",
            "Carfilzomib (Kyprolis)",
            "Elotuzumab (Empliciti)",
            "Isunakinra (Acalabrutinib)",
            "Chimeric Antigen Receptor T-cell Therapy (CAR-T)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Venetoclax (Venclexta)",
                "Cytarabine (Cytosar-U)",
                "Fludarabine (Fludara)",
                "Midostaurin (Rydapt)",
                "Tisagenlecleucel (Kymriah)",
                "Clofarabine (Clolar)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Mylotarg (Gemtuzumab ozogamicin)",
                "Nelarabine (Arranon)",
                "Blincyto (Blinatumomab)"
            ],
            "mismatches": [
                "Etoposide (VP-16)",
                "Decitabine (Dacogen)",
                "Azacitidine (Vidaza)",
                "L-asparaginase (Elspar)",
                "Acalabrutinib (Calquence)",
                "Ruxolitinib (Jakafi)",
                "Carfilzomib (Kyprolis)",
                "Elotuzumab (Empliciti)",
                "Isunakinra (Acalabrutinib)",
                "Chimeric Antigen Receptor T-cell Therapy (CAR-T)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Alemtuzumab",
                "Arranon (Nelarabine)",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Brukinsa (Zanubrutinib)",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Kymriah (Tisagenlecleucel)",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Olutasidenib",
                "Onureg (Azacitidine)",
                "Ponatinib Hydrochloride",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 15,
            "FP": 10,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4-32k",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Gleevec (Imatinib)",
            "Sprycel (Dasatinib)",
            "Tasigna (Nilotinib)",
            "Bosulif (Bosutinib)",
            "Iclusig (Ponatinib)",
            "Rydapt (Midostaurin)",
            "Venclexta (Venetoclax)",
            "Rituxan (Rituximab)",
            "Arranon (Nelarabine)",
            "Clolar (Clofarabine)",
            "Campath (Alemtuzumab)",
            "Marqibo (Vincristine)",
            "Besponsa (Inotuzumab Ozogamicin)",
            "Mylotarg (Gemtuzumab Ozogamicin)",
            "Blincyto (Blinatumomab)",
            "Kymriah (Tisagenlecleucel)",
            "Yescarta (Axicabtagene Ciloleucel)",
            "Adcetris (Brentuximab Vedotin)",
            "Calquence (Acalabrutinib)",
            "Imbruvica (Ibrutinib)",
            "Venclexta (Venetoclax)",
            "Zydelig (Idelalisib)",
            "Verzenio (Abemaciclib)",
            "Tagrisso (Osimertinib)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Gleevec (Imatinib)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Bosulif (Bosutinib)",
                "Iclusig (Ponatinib)",
                "Rydapt (Midostaurin)",
                "Venclexta (Venetoclax)",
                "Rituxan (Rituximab)",
                "Arranon (Nelarabine)",
                "Clolar (Clofarabine)",
                "Campath (Alemtuzumab)",
                "Besponsa (Inotuzumab Ozogamicin)",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Blincyto (Blinatumomab)",
                "Kymriah (Tisagenlecleucel)",
                "Calquence (Acalabrutinib)",
                "Imbruvica (Ibrutinib)",
                "Zydelig (Idelalisib)"
            ],
            "mismatches": [
                "Marqibo (Vincristine)",
                "Yescarta (Axicabtagene Ciloleucel)",
                "Adcetris (Brentuximab Vedotin)",
                "Verzenio (Abemaciclib)",
                "Tagrisso (Osimertinib)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Alemtuzumab",
                "Arranon (Nelarabine)",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Campath (Alemtuzumab)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Copiktra (Duvelisib)",
                "Dasatinib",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Ivosidenib",
                "Jaypirca (Pirtobrutinib)",
                "Kymriah (Tisagenlecleucel)",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Ofatumumab",
                "Olutasidenib",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Trexall (Methotrexate Sodium)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 18,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Venetoclax (Venclexta)",
            "Midostaurin (Rydapt)",
            "Gilteritinib (Xospata)",
            "Enasidenib (Idhifa)",
            "Ivosidenib (Tibsovo)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Tretinoin (Vesanoid)",
            "Arsenic trioxide (Trisenox)",
            "Clofarabine (Clolar)",
            "Cytarabine (Cytosar-U)",
            "Daunorubicin (Daunomycin)",
            "Idarubicin (Idamycin)",
            "Mitoxantrone (Novantrone)",
            "Cladribine (Leustatin)",
            "Fludarabine (Fludara)",
            "Mercaptopurine (Purinethol)",
            "Thioguanine (Tabloid)",
            "Hydroxyurea (Droxia)",
            "Busulfan (Busulfex)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Venetoclax (Venclexta)",
                "Midostaurin (Rydapt)",
                "Gilteritinib (Xospata)",
                "Enasidenib (Idhifa)",
                "Ivosidenib (Tibsovo)",
                "Gemtuzumab ozogamicin (Mylotarg)",
                "Arsenic trioxide (Trisenox)",
                "Clofarabine (Clolar)",
                "Mercaptopurine (Purinethol)",
                "Thioguanine (Tabloid)",
                "Busulfan (Busulfex)"
            ],
            "mismatches": [
                "Tretinoin (Vesanoid)",
                "Cytarabine (Cytosar-U)",
                "Daunorubicin (Daunomycin)",
                "Idarubicin (Idamycin)",
                "Mitoxantrone (Novantrone)",
                "Cladribine (Leustatin)",
                "Fludarabine (Fludara)",
                "Hydroxyurea (Droxia)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Arsenic Trioxide",
                "Azacitidine",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Busulfan",
                "Busulfex (Busulfan)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Doxorubicin Hydrochloride",
                "Enasidenib Mesylate",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Hydrea (Hydroxyurea)",
                "Hydroxyurea",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Ivosidenib",
                "Mercaptopurine",
                "Midostaurin",
                "Mitoxantrone Hydrochloride",
                "Myleran (Busulfan)",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Olutasidenib",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituxan Hycela (Rituximab and Hyaluronidase Human)",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tabloid (Thioguanine)",
                "Tasigna (Nilotinib)",
                "Thioguanine",
                "Tibsovo (Ivosidenib)",
                "Trexall (Methotrexate Sodium)",
                "Trisenox (Arsenic Trioxide)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Xospata (Gilteritinib Fumarate)"
            ],
            "TP": 16,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "o1-mini",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib Mesylate (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Ruxolitinib (Jakafi)",
            "Venetoclax (Venclexta)",
            "Fludarabine (Fludara)",
            "Cytarabine (Ara-C)",
            "Methotrexate",
            "Doxorubicin (Adriamycin)",
            "Vincristine (Oncovin)",
            "Prednisone",
            "Cyclophosphamide (Cytoxan)",
            "Clofarabine (Clolar)",
            "Alemtuzumab (Campath)",
            "Azacitidine (Vidaza)",
            "Decitabine (Dacogen)",
            "Midostaurin (Rydapt)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab Ozogamicin (Besponsa)",
            "Brentuximab Vedotin (Adcetris)",
            "Gemtuzumab Ozogamicin (Mylotarg)",
            "Tretinoin (All-trans Retinoic Acid)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib Mesylate (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Venetoclax (Venclexta)",
                "Prednisone",
                "Clofarabine (Clolar)",
                "Alemtuzumab (Campath)",
                "Midostaurin (Rydapt)",
                "Blinatumomab (Blincyto)",
                "Inotuzumab Ozogamicin (Besponsa)",
                "Gemtuzumab Ozogamicin (Mylotarg)"
            ],
            "mismatches": [
                "Ruxolitinib (Jakafi)",
                "Fludarabine (Fludara)",
                "Cytarabine (Ara-C)",
                "Methotrexate",
                "Doxorubicin (Adriamycin)",
                "Vincristine (Oncovin)",
                "Cyclophosphamide (Cytoxan)",
                "Azacitidine (Vidaza)",
                "Decitabine (Dacogen)",
                "Brentuximab Vedotin (Adcetris)",
                "Tretinoin (All-trans Retinoic Acid)"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arsenic Trioxide",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Campath (Alemtuzumab)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Dexamethasone",
                "Doxorubicin Hydrochloride",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Imatinib Mesylate",
                "Imkeldi (Imatinib Mesylate)",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Methotrexate Sodium",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Olutasidenib",
                "Onureg (Azacitidine)",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate"
            ],
            "TP": 13,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Venetoclax (Venclexta)",
            "Rituximab (Rituxan)",
            "Obinutuzumab (Gazyva)",
            "Ofatumumab (Arzerra)",
            "Ibrutinib (Imbruvica)",
            "Acalabrutinib (Calquence)",
            "Idelalisib (Zydelig)",
            "Duvelisib (Copiktra)",
            "Gilteritinib (Xospata)",
            "Midostaurin (Rydapt)",
            "Quizartinib (Vanflyta)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Arsenic trioxide (Trisenox)",
            "All-trans retinoic acid (ATRA)",
            "Cytarabine",
            "Daunorubicin",
            "Vincristine"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Venetoclax (Venclexta)",
                "Rituximab (Rituxan)",
                "Obinutuzumab (Gazyva)",
                "Ofatumumab (Arzerra)",
                "Ibrutinib (Imbruvica)",
                "Acalabrutinib (Calquence)",
                "Idelalisib (Zydelig)",
                "Duvelisib (Copiktra)",
                "Gilteritinib (Xospata)",
                "Midostaurin (Rydapt)",
                "Quizartinib (Vanflyta)",
                "Gemtuzumab ozogamicin (Mylotarg)",
                "Blinatumomab (Blincyto)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Arsenic trioxide (Trisenox)",
                "Cytarabine",
                "Vincristine"
            ],
            "mismatches": [
                "All-trans retinoic acid (ATRA)",
                "Daunorubicin"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Alemtuzumab",
                "Arsenic Trioxide",
                "Arzerra (Ofatumumab)",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Copiktra (Duvelisib)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Duvelisib",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Quizartinib Dihydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Trisenox (Arsenic Trioxide)",
                "Truxima (Rituximab)",
                "Vanflyta (Quizartinib Dihydrochloride)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Xospata (Gilteritinib Fumarate)",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Asparaginase Erwinia chrysanthemi (Erwinaze)",
            "Rituximab (Rituxan)",
            "Obinutuzumab (Gazyva)",
            "Ofatumumab (Arzerra)",
            "Alemtuzumab (Campath)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Tisagenlecleucel (Kymriah)",
            "Axicabtagene ciloleucel (Yescarta)",
            "Venetoclax (Venclexta)",
            "Enasidenib (Idhifa)",
            "Midostaurin (Rydapt)",
            "Gilteritinib (Xospata)",
            "Glasdegib (Daurismo)",
            "Tagraxofusp-erzs (Elzonris)",
            "Arsenic trioxide (Trisenox)",
            "Tretinoin (Vesanoid)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Pegaspargase (Oncaspar)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Asparaginase Erwinia chrysanthemi (Erwinaze)",
                "Rituximab (Rituxan)",
                "Obinutuzumab (Gazyva)",
                "Ofatumumab (Arzerra)",
                "Alemtuzumab (Campath)",
                "Blinatumomab (Blincyto)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Tisagenlecleucel (Kymriah)",
                "Venetoclax (Venclexta)",
                "Enasidenib (Idhifa)",
                "Midostaurin (Rydapt)",
                "Gilteritinib (Xospata)",
                "Glasdegib (Daurismo)",
                "Tagraxofusp-erzs (Elzonris)",
                "Arsenic trioxide (Trisenox)",
                "Gemtuzumab ozogamicin (Mylotarg)",
                "Pegaspargase (Oncaspar)"
            ],
            "mismatches": [
                "Axicabtagene ciloleucel (Yescarta)",
                "Tretinoin (Vesanoid)"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arranon (Nelarabine)",
                "Arsenic Trioxide",
                "Arzerra (Ofatumumab)",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calaspargase Pegol-mknl",
                "Campath (Alemtuzumab)",
                "Chlorambucil",
                "Dasatinib",
                "Daurismo (Glasdegib Maleate)",
                "Elzonris (Tagraxofusp-erzs)",
                "Enasidenib Mesylate",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Glasdegib Maleate",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Kymriah (Tisagenlecleucel)",
                "Lisocabtagene Maraleucel",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Obinutuzumab",
                "Ofatumumab",
                "Oncaspar (Pegaspargase)",
                "Pegaspargase",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tagraxofusp-erzs",
                "Tasigna (Nilotinib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Trexall (Methotrexate Sodium)",
                "Trisenox (Arsenic Trioxide)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Xospata (Gilteritinib Fumarate)",
                "Zydelig (Idelalisib)"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Ponatinib (Iclusig)",
            "Bosutinib (Bosulif)",
            "Asciminib (Scemblix)",
            "Venetoclax (Venclexta)",
            "Glasdegib (Daurismo)",
            "Gilteritinib (Xospata)",
            "Enasidenib (Idhifa)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Blinatumomab (Blincyto)",
            "Liposomal cytarabine (DepoCyt)",
            "Cladribine (Leustatin)",
            "Clofarabine (Clolar)",
            "Nelarabine (Arranon)",
            "Vincristine liposomal (Marqibo)",
            "Omacetaxine mepesuccinate (Synribo)",
            "Decitabine (Dacogen)",
            "Azacitidine (Vidaza)",
            "Midostaurin (Rydapt)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Ponatinib (Iclusig)",
                "Bosutinib (Bosulif)",
                "Asciminib (Scemblix)",
                "Venetoclax (Venclexta)",
                "Glasdegib (Daurismo)",
                "Gilteritinib (Xospata)",
                "Enasidenib (Idhifa)",
                "Gemtuzumab ozogamicin (Mylotarg)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Blinatumomab (Blincyto)",
                "Clofarabine (Clolar)",
                "Nelarabine (Arranon)",
                "Omacetaxine mepesuccinate (Synribo)",
                "Midostaurin (Rydapt)"
            ],
            "mismatches": [
                "Liposomal cytarabine (DepoCyt)",
                "Cladribine (Leustatin)",
                "Vincristine liposomal (Marqibo)",
                "Decitabine (Dacogen)",
                "Azacitidine (Vidaza)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Asciminib Hydrochloride",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Daurismo (Glasdegib Maleate)",
                "Dexamethasone",
                "Enasidenib Mesylate",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Glasdegib Maleate",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Omacetaxine Mepesuccinate",
                "Onureg (Azacitidine)",
                "Ponatinib Hydrochloride",
                "Rydapt (Midostaurin)",
                "Scemblix (Asciminib Hydrochloride)",
                "Sprycel (Dasatinib)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Xospata (Gilteritinib Fumarate)",
                "Zydelig (Idelalisib)"
            ],
            "TP": 17,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Venetoclax (Venclexta)",
            "Blinatumomab (Blincyto)",
            "Clofarabine (Clolar)",
            "Nelarabine (Arranon)",
            "Asparaginase (Elspar)",
            "Cladribine (Leustatin)",
            "Fludarabine (Fludara)",
            "Pentostatin (Nipent)",
            "Clofarabine (Clolar)",
            "Cytarabine (Cytosar-U)",
            "Daunorubicin (Cerubidine)",
            "Idarubicin (Idamycin)",
            "Mitoxantrone (Novantrone)",
            "Etoposide (Toposar)",
            "Teniposide (Vumon)",
            "Tretinoin (Vesanoid)",
            "Arsenic trioxide (Trisenox)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Bortezomib (Velcade)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Venetoclax (Venclexta)",
                "Blinatumomab (Blincyto)",
                "Clofarabine (Clolar)",
                "Nelarabine (Arranon)",
                "Arsenic trioxide (Trisenox)",
                "Gemtuzumab ozogamicin (Mylotarg)"
            ],
            "mismatches": [
                "Asparaginase (Elspar)",
                "Cladribine (Leustatin)",
                "Fludarabine (Fludara)",
                "Pentostatin (Nipent)",
                "Cytarabine (Cytosar-U)",
                "Daunorubicin (Cerubidine)",
                "Idarubicin (Idamycin)",
                "Mitoxantrone (Novantrone)",
                "Etoposide (Toposar)",
                "Teniposide (Vumon)",
                "Tretinoin (Vesanoid)",
                "Bortezomib (Velcade)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Arsenic Trioxide",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Busulfex (Busulfan)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Mitoxantrone Hydrochloride",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Trisenox (Arsenic Trioxide)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Xospata (Gilteritinib Fumarate)"
            ],
            "TP": 11,
            "FP": 12,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Hydroxyurea (Hydrea)",
            "Busulfan",
            "Cytarabine",
            "Daunorubicin",
            "Mitoxantrone",
            "Vincristine",
            "Mercaptopurine",
            "Purinethol",
            "Cladribine",
            "Fludarabine",
            "Idarubicin",
            "Asparaginase",
            "Clofarabine",
            "Nelarabine",
            "Pegaspargase",
            "Clofarabine",
            "Mitoxantrone",
            "Gemtuzumab ozogamicin",
            "Blincyto",
            "Blinatumomab",
            "Inotuzumab ozogamicin",
            "Ibrutinib",
            "Blinatumomab",
            "Ixazomib",
            "Bosutinib",
            "Ibrutinib"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Busulfan",
                "Cytarabine",
                "Mercaptopurine",
                "Cladribine",
                "Fludarabine",
                "Nelarabine",
                "Purinethol",
                "Clofarabine",
                "Pegaspargase",
                "Gemtuzumab ozogamicin",
                "Blinatumomab",
                "Inotuzumab ozogamicin",
                "Ibrutinib"
            ],
            "mismatches": [
                "Hydroxyurea (Hydrea)",
                "Daunorubicin",
                "Mitoxantrone",
                "Vincristine",
                "Asparaginase",
                "Mitoxantrone",
                "Blincyto",
                "Ixazomib",
                "Bosutinib"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Busulfan",
                "Busulfex (Busulfan)",
                "Calaspargase Pegol-mknl",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Daunorubicin Hydrochloride",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Hydrea (Hydroxyurea)",
                "Hydroxyurea",
                "Ibrutinib",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Mitoxantrone Hydrochloride",
                "Myleran (Busulfan)",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Oncaspar (Pegaspargase)",
                "Pegaspargase",
                "Pirtobrutinib",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan Hycela (Rituximab and Hyaluronidase Human)",
                "Rituximab",
                "Thioguanine",
                "Vincristine Sulfate"
            ],
            "TP": 13,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Midostaurin (PKC412)",
            "Gilteritinib (ASP2215)",
            "Enasidenib (AG-221)",
            "Ivosidenib (AG-120)",
            "Tretinoin (Vesanoid)",
            "Arsenic trioxide (Trisenox)",
            "Tisagenlecleucel (Kymriah)",
            "Axicabtagene ciloleucel (Yescarta)",
            "Ponatinib (Iclusig)",
            "Bosutinib (Bosulif)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Imatinib (Gleevec)",
            "Omacetaxine mepesuccinate (Synribo)",
            "Clofarabine (Colzar)",
            "Decitabine (Dacogen)",
            "Fludarabine phosphate (Fludara)",
            "Cladribine (Leustatin)",
            "Nelarabine (Arranon)",
            "Cyclophosphamide (Cytoxan)",
            "Ifosfamide (Ifex)",
            "Melphalan (Alkeran)",
            "Bendamustine (Treanda)",
            "Chlorambucil (Leukeran)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Midostaurin",
                "Gilteritinib Fumarate",
                "Enasidenib Mesylate",
                "Ivosidenib",
                "Arsenic Trioxide",
                "Tisagenlecleucel",
                "Ponatinib Hydrochloride",
                "Bosutinib",
                "Dasatinib",
                "Nilotinib",
                "Imatinib Mesylate",
                "Omacetaxine Mepesuccinate",
                "Nelarabine",
                "Cyclophosphamide",
                "Bendamustine Hydrochloride",
                "Chlorambucil"
            ],
            "mismatches": [
                "Tretinoin (Vesanoid)",
                "Axicabtagene ciloleucel (Yescarta)",
                "Clofarabine (Colzar)",
                "Decitabine (Dacogen)",
                "Fludarabine phosphate (Fludara)",
                "Cladribine (Leustatin)",
                "Ifosfamide (Ifex)",
                "Melphalan (Alkeran)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Arsenic Trioxide",
                "Azacitidine",
                "Bendamustine Hydrochloride",
                "Bendeka (Bendamustine Hydrochloride)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Dexamethasone",
                "Enasidenib Mesylate",
                "Fludarabine Phosphate",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Ivosidenib",
                "Kymriah (Tisagenlecleucel)",
                "Leukeran (Chlorambucil)",
                "Lisocabtagene Maraleucel",
                "Midostaurin",
                "Myleran (Busulfan)",
                "Nelarabine",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Olutasidenib",
                "Omacetaxine Mepesuccinate",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tasigna (Nilotinib)",
                "Tibsovo (Ivosidenib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Treanda (Bendamustine Hydrochloride)",
                "Trisenox (Arsenic Trioxide)",
                "Xospata (Gilteritinib Fumarate)"
            ],
            "TP": 16,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            {
                "Referent": "Imatinib mesylate (Gleevec)",
                "Canonical name": "Imatinib mesylate"
            },
            {
                "Referent": "Dasatinib (Sprycel)",
                "Canonical name": "Dasatinib"
            },
            {
                "Referent": "Nilotinib (Tasigna)",
                "Canonical name": "Nilotinib"
            },
            {
                "Referent": "Bosutinib (Bosulif)",
                "Canonical name": "Bosutinib"
            },
            {
                "Referent": "Ponatinib (Iclusig)",
                "Canonical name": "Ponatinib"
            }
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib Mesylate",
                "Dasatinib",
                "Nilotinib",
                "Bosutinib"
            ],
            "mismatches": [
                "Ponatinib"
            ],
            "true_referents": [
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Dasatinib",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Imatinib Mesylate",
                "Nilotinib",
                "Rituxan (Rituximab)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)"
            ],
            "TP": 4,
            "FP": 1,
            "FN": 0
        }
    }
]