[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib",
            "Nilotinib",
            "Bosutinib",
            "Ponatinib",
            "Chlorambucil",
            "Cyclophosphamide",
            "Fludarabine",
            "Ibrutinib",
            "Venetoclax",
            "Alemtuzumab",
            "Ofatumumab",
            "Rituximab",
            "Blinatumomab",
            "Inotuzumab ozogamicin",
            "Midostaurin",
            "Clofarabine",
            "Cladribine",
            "Eltrombopag",
            "Elotuzumab",
            "Daratumumab",
            "Idecabtagene vicleucel",
            "Pembrolizumab"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Dasatinib",
                "Nilotinib",
                "Bosutinib",
                "Chlorambucil",
                "Cyclophosphamide",
                "Ibrutinib",
                "Venetoclax",
                "Alemtuzumab",
                "Ofatumumab",
                "Rituximab",
                "Blinatumomab",
                "Midostaurin",
                "Clofarabine",
                "Cladribine"
            ],
            "mismatches": [
                "Imatinib (Gleevec)",
                "Ponatinib",
                "Fludarabine",
                "Inotuzumab ozogamicin",
                "Eltrombopag",
                "Elotuzumab",
                "Daratumumab",
                "Idecabtagene vicleucel",
                "Pembrolizumab"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arzerra (Ofatumumab)",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calaspargase Pegol-mknl",
                "Campath (Alemtuzumab)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Ibrutinib",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Leukeran (Chlorambucil)",
                "Lisocabtagene Maraleucel",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Obinutuzumab",
                "Ofatumumab",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tisagenlecleucel",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Xospata (Gilteritinib Fumarate)"
            ],
            "TP": 14,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Nucleoside analogs (Cytarabine, Ara-C)",
            "Fludarabine (Fludara)",
            "Cladribine (Leustatin)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Decitabine (Dacogen)",
            "Vincristine (Oncovin)",
            "Daunorubicin (Cerubidine)",
            "Doxorubicin (Adriamycin, Doxil)",
            "Idarubicin (Idamycin)",
            "Cytarabine (Ara-C)",
            "Etoposide (VP-16, VePesid)",
            "Bleomycin (Blenoxane)",
            "Methotrexate",
            "Mercaptopurine (6-MP)",
            "6-Thioguanine (6-TG)",
            "Cytarabine liposome (Depocyt)",
            "Carmustine (BCNU, BiCNU)",
            "Temozolomide (Temodar)",
            "L-asparaginase (Elspar, L-Asparaginase)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Gemtuzumab ozogamicin (Mylotarg)",
                "Methotrexate",
                "Mercaptopurine (6-MP)"
            ],
            "mismatches": [
                "Imatinib (Gleevec)",
                "Ponatinib (Iclusig)",
                "Nucleoside analogs (Cytarabine, Ara-C)",
                "Fludarabine (Fludara)",
                "Cladribine (Leustatin)",
                "Decitabine (Dacogen)",
                "Vincristine (Oncovin)",
                "Daunorubicin (Cerubidine)",
                "Doxorubicin (Adriamycin, Doxil)",
                "Idarubicin (Idamycin)",
                "Cytarabine (Ara-C)",
                "Etoposide (VP-16, VePesid)",
                "Bleomycin (Blenoxane)",
                "6-Thioguanine (6-TG)",
                "Cytarabine liposome (Depocyt)",
                "Carmustine (BCNU, BiCNU)",
                "Temozolomide (Temodar)",
                "L-asparaginase (Elspar, L-Asparaginase)"
            ],
            "true_referents": [
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Brukinsa (Zanubrutinib)",
                "Busulfan",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Doxorubicin Hydrochloride",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Methotrexate Sodium",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Pemazyre (Pemigatinib)",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Sprycel (Dasatinib)",
                "Tabloid (Thioguanine)",
                "Tasigna (Nilotinib)",
                "Thioguanine",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)"
            ],
            "TP": 6,
            "FP": 18,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Ruxolitinib (Jakafi)",
            "Vosaroxin (Vyxeos)",
            "Cytarabine (Ara-C)",
            "Daunorubicin (Cerubidine)",
            "Idarubicin (Idamycin)",
            "Cladribine (Leustatin)",
            "Fludarabine (Fludara)",
            "Ofatumumab (Arzerra)",
            "Oblimersen (Genasense)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Venetoclax (Venclexta)",
            "Ibrutinib (Imbruvica)",
            "Idelalisib (Zydelig)",
            "Midostaurin (Rydapt)",
            "Gilteritinib (Xospata)",
            "Enasidenib (Idhifa)",
            "Givosiran (Givlaari)",
            "Rituximab (Rituxan)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Ofatumumab (Arzerra)",
                "Blinatumomab (Blincyto)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Venetoclax (Venclexta)",
                "Ibrutinib (Imbruvica)",
                "Idelalisib (Zydelig)",
                "Midostaurin (Rydapt)",
                "Gilteritinib (Xospata)",
                "Enasidenib (Idhifa)",
                "Rituximab (Rituxan)"
            ],
            "mismatches": [
                "Ruxolitinib (Jakafi)",
                "Vosaroxin (Vyxeos)",
                "Cytarabine (Ara-C)",
                "Daunorubicin (Cerubidine)",
                "Idarubicin (Idamycin)",
                "Cladribine (Leustatin)",
                "Fludarabine (Fludara)",
                "Oblimersen (Genasense)",
                "Givosiran (Givlaari)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Arzerra (Ofatumumab)",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Cladribine",
                "Clofarabine",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Daurismo (Glasdegib Maleate)",
                "Duvelisib",
                "Enasidenib Mesylate",
                "Fludarabine Phosphate",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Midostaurin",
                "Myleran (Busulfan)",
                "Nelarabine",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Obinutuzumab",
                "Ofatumumab",
                "Olutasidenib",
                "Oncaspar (Pegaspargase)",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Trisenox (Arsenic Trioxide)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Xospata (Gilteritinib Fumarate)",
                "Zydelig (Idelalisib)"
            ],
            "TP": 15,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Venetoclax (Venclexta)",
            "Fludarabine",
            "Cytarabine (Ara-C)",
            "Daunorubicin",
            "Doxorubicin",
            "Idarubicin",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Tisagenlecleucel (Kymriah)",
            "Axicabtagene ciloleucel (Yescarta)",
            "Lisocabtagene maraleucel (Breyanzi)",
            "Brexucabtagene autoleucel (Tecartus)",
            "Decitabine",
            "Azacitidine",
            "Clofarabine",
            "Omacetaxine mepesuccinate (Synribo)",
            "Nelarabine",
            "Vorinostat"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Venetoclax (Venclexta)",
                "Fludarabine",
                "Cytarabine (Ara-C)",
                "Daunorubicin",
                "Doxorubicin",
                "Idarubicin",
                "Gemtuzumab ozogamicin (Mylotarg)",
                "Blinatumomab (Blincyto)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Tisagenlecleucel (Kymriah)",
                "Lisocabtagene maraleucel (Breyanzi)",
                "Azacitidine",
                "Clofarabine",
                "Omacetaxine mepesuccinate (Synribo)",
                "Nelarabine"
            ],
            "mismatches": [
                "Axicabtagene ciloleucel (Yescarta)",
                "Brexucabtagene autoleucel (Tecartus)",
                "Decitabine",
                "Vorinostat"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Aucatzyl (Obecabtagene Autoleucel)",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Breyanzi (Lisocabtagene Maraleucel)",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Dexamethasone",
                "Doxorubicin Hydrochloride",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Ivosidenib",
                "Kymriah (Tisagenlecleucel)",
                "Lisocabtagene Maraleucel",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Obinutuzumab",
                "Omacetaxine Mepesuccinate",
                "Onureg (Azacitidine)",
                "Ponatinib Hydrochloride",
                "Rituximab",
                "Sprycel (Dasatinib)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tasigna (Nilotinib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax"
            ],
            "TP": 20,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Ibrutinib (Imbruvica)",
            "Acalabrutinib (Calquence)",
            "Venetoclax (Venclexta)",
            "Idelalisib (Zydelig)",
            "Duvelisib (Copiktra)",
            "Fludarabine (Fludara)",
            "Cladribine (Leustatin)",
            "Bendamustine (Treanda)",
            "Rituximab (Rituxan)",
            "Obinutuzumab (Gazyva)",
            "Ofatumumab (Arzerra)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Midostaurin (Rydapt)",
            "Enasidenib (Idhifa)",
            "Ivosidenib (Tibsovo)",
            "Asparaginase Erwinia chrysanthemi (Erwinaze)",
            "Pegaspargase (Oncaspar)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Ibrutinib (Imbruvica)",
                "Acalabrutinib (Calquence)",
                "Venetoclax (Venclexta)",
                "Idelalisib (Zydelig)",
                "Duvelisib (Copiktra)",
                "Bendamustine (Treanda)",
                "Rituximab (Rituxan)",
                "Obinutuzumab (Gazyva)",
                "Ofatumumab (Arzerra)",
                "Blinatumomab (Blincyto)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Gemtuzumab ozogamicin (Mylotarg)",
                "Midostaurin (Rydapt)",
                "Enasidenib (Idhifa)",
                "Ivosidenib (Tibsovo)",
                "Asparaginase Erwinia chrysanthemi (Erwinaze)",
                "Pegaspargase (Oncaspar)"
            ],
            "mismatches": [
                "Fludarabine (Fludara)",
                "Cladribine (Leustatin)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Alemtuzumab",
                "Arzerra (Ofatumumab)",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Bendamustine Hydrochloride",
                "Bendeka (Bendamustine Hydrochloride)",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calaspargase Pegol-mknl",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Cladribine",
                "Clofarabine",
                "Copiktra (Duvelisib)",
                "Dasatinib",
                "Duvelisib",
                "Enasidenib Mesylate",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Ivosidenib",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Olutasidenib",
                "Oncaspar (Pegaspargase)",
                "Pegaspargase",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Tibsovo (Ivosidenib)",
                "Treanda (Bendamustine Hydrochloride)",
                "Trexall (Methotrexate Sodium)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Etoposide (VePesid)",
            "Cytarabine (Cytosar-U)",
            "Daunorubicin (Cerubidine)",
            "Vincristine (Oncovin)",
            "Hydroxyurea (Hydrea)",
            "L-asparaginase (Elspar)",
            "Ruxolitinib (Jakafi)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Blincyto (Blinatumomab)",
            "Clofarabine (Clolar)",
            "Mecasermin (Increlex)",
            "Acalabrutinib (Calquence)",
            "Venetoclax (Venclexta)",
            "Midostaurin (Rydapt)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Tisagenlecleucel (Kymriah)",
            "Lisocabtagene maraleucel (Breyanzi)",
            "Selinexor (Xpovio)",
            "Elranatamab (Elrexfio)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib Mesylate",
                "Dasatinib",
                "Nilotinib",
                "Bosutinib",
                "Ponatinib Hydrochloride",
                "Cytarabine",
                "Hydroxyurea",
                "Inotuzumab Ozogamicin",
                "Blincyto (Blinatumomab)",
                "Clofarabine",
                "Acalabrutinib Maleate Monohydrate",
                "Venetoclax",
                "Midostaurin",
                "Gemtuzumab Ozogamicin",
                "Tisagenlecleucel",
                "Lisocabtagene Maraleucel"
            ],
            "mismatches": [
                "Etoposide (VePesid)",
                "Daunorubicin (Cerubidine)",
                "Vincristine (Oncovin)",
                "L-asparaginase (Elspar)",
                "Ruxolitinib (Jakafi)",
                "Mecasermin (Increlex)",
                "Selinexor (Xpovio)",
                "Elranatamab (Elrexfio)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Alemtuzumab",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Breyanzi (Lisocabtagene Maraleucel)",
                "Busulfan",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Dexamethasone",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Hydrea (Hydroxyurea)",
                "Hydroxyurea",
                "Iclusig (Ponatinib Hydrochloride)",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Kymriah (Tisagenlecleucel)",
                "Leukeran (Chlorambucil)",
                "Lisocabtagene Maraleucel",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obecabtagene Autoleucel",
                "Olutasidenib",
                "Omacetaxine Mepesuccinate",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Rituxan (Rituximab)",
                "Rituxan Hycela (Rituximab and Hyaluronidase Human)",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Tisagenlecleucel",
                "Tisagenlecleucel (Kymriah)",
                "Trexall (Methotrexate Sodium)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Zanubrutinib"
            ],
            "TP": 16,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Gleevec (Imatinib)",
            "Tasigna (Nilotinib)",
            "Sprycel (Dasatinib)",
            "Iclusig (Ponatinib)",
            "Bosulif (Bosutinib)",
            "Rydapt (Midostaurin)",
            "Venclexta (Venetoclax)",
            "Blincyto (Blinatumomab)",
            "Besponsa (Inotuzumab Ozogamicin)",
            "Mylotarg (Gemtuzumab Ozogamicin)",
            "Rituxan (Rituximab)",
            "Arzerra (Ofatumumab)",
            "Gazyva (Obinutuzumab)",
            "Calquence (Acalabrutinib)",
            "Imbruvica (Ibrutinib)",
            "Zydelig (Idelalisib)",
            "Copiktra (Duvelisib)",
            "Vitrakvi (Larotrectinib)",
            "Rozlytrek (Entrectinib)",
            "Xospata (Gilteritinib)",
            "Idhifa (Enasidenib)",
            "Tibsovo (Ivosidenib)",
            "Daurismo (Glasdegib)",
            "Rydapt (Midostaurin)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Tasigna (Nilotinib)",
                "Sprycel (Dasatinib)",
                "Iclusig (Ponatinib)",
                "Bosulif (Bosutinib)",
                "Rydapt (Midostaurin)",
                "Venclexta (Venetoclax)",
                "Blincyto (Blinatumomab)",
                "Besponsa (Inotuzumab Ozogamicin)",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Rituxan (Rituximab)",
                "Arzerra (Ofatumumab)",
                "Gazyva (Obinutuzumab)",
                "Imbruvica (Ibrutinib)",
                "Zydelig (Idelalisib)",
                "Copiktra (Duvelisib)",
                "Xospata (Gilteritinib Fumarate)",
                "Idhifa (Enasidenib Mesylate)",
                "Tibsovo (Ivosidenib)",
                "Daurismo (Glasdegib Maleate)"
            ],
            "mismatches": [
                "Gleevec (Imatinib)",
                "Calquence (Acalabrutinib)",
                "Vitrakvi (Larotrectinib)",
                "Rozlytrek (Entrectinib)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Arzerra (Ofatumumab)",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Copiktra (Duvelisib)",
                "Dasatinib",
                "Daurismo (Glasdegib Maleate)",
                "Duvelisib",
                "Enasidenib Mesylate",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Glasdegib Maleate",
                "Gleevec (Imatinib Mesylate)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Ivosidenib",
                "Mercaptopurine",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Olutasidenib",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Tibsovo (Ivosidenib)",
                "Trexall (Methotrexate Sodium)",
                "Truxima (Rituximab)",
                "Vanflyta (Quizartinib Dihydrochloride)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Xospata (Gilteritinib Fumarate)",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 19,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Ponatinib (Iclusig)",
            "Bosutinib (Bosulif)",
            "Venetoclax (Venclexta)",
            "Midostaurin (Rydapt)",
            "Ruxolitinib (Jakafi)",
            "Idelalisib (Zydelig)",
            "Arsenic trioxide (Trisenox)",
            "Tretinoin (Vesanoid)",
            "Decitabine (Dacogen)",
            "Azacitidine (Vidaza)",
            "Clofarabine (Clolar)",
            "Fludarabine (Fludara)",
            "Cytarabine (Cytosar-U)",
            "Mercaptopurine (Purinethol)",
            "Vincristine (Oncovin)",
            "Doxorubicin (Adriamycin)",
            "Daunorubicin (Cerubidine)",
            "Etoposide (VP-16)",
            "Mitoxantrone (Novantrone)",
            "Cladribine (Leustatin)",
            "Hydroxyurea (Hydrea)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Ponatinib (Iclusig)",
                "Bosutinib (Bosulif)",
                "Venetoclax (Venclexta)",
                "Midostaurin (Rydapt)",
                "Idelalisib (Zydelig)",
                "Arsenic trioxide (Trisenox)",
                "Clofarabine (Clolar)",
                "Mercaptopurine (Purinethol)",
                "Cladribine (Leustatin)",
                "Hydroxyurea (Hydrea)"
            ],
            "mismatches": [
                "Ruxolitinib (Jakafi)",
                "Tretinoin (Vesanoid)",
                "Decitabine (Dacogen)",
                "Azacitidine (Vidaza)",
                "Fludarabine (Fludara)",
                "Cytarabine (Cytosar-U)",
                "Vincristine (Oncovin)",
                "Doxorubicin (Adriamycin)",
                "Daunorubicin (Cerubidine)",
                "Etoposide (VP-16)",
                "Mitoxantrone (Novantrone)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Arsenic Trioxide",
                "Azacitidine",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Doxorubicin Hydrochloride",
                "Fludarabine Phosphate",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Hydrea (Hydroxyurea)",
                "Hydroxyurea",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Imatinib Mesylate",
                "Mercaptopurine",
                "Midostaurin",
                "Mitoxantrone Hydrochloride",
                "Nelarabine",
                "Nilotinib",
                "Olutasidenib",
                "Onureg (Azacitidine)",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituxan Hycela (Rituximab and Hyaluronidase Human)",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Trisenox (Arsenic Trioxide)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Zydelig (Idelalisib)"
            ],
            "TP": 13,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Venetoclax (Venclexta)",
            "Ruxolitinib (Jakafi)",
            "Midostaurin (Rydapt)",
            "Gilteritinib (Xospata)",
            "Ivosidenib (Tibsovo)",
            "Enasidenib (Idhifa)",
            "Decitabine (Dacogen)",
            "Azacitidine (Vidaza)",
            "Fludarabine (Fludara)",
            "Clofarabine (Clolar)",
            "Cytarabine (Ara-C)",
            "Methotrexate",
            "Daunorubicin",
            "Mercaptopurine (6-MP)",
            "Thioguanine",
            "Blinatumomab (Blincyto)",
            "Nelarabine (Arranon)",
            "Talacotuzumab",
            "Lenalidomide (Revlimid)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Venetoclax (Venclexta)",
                "Midostaurin (Rydapt)",
                "Gilteritinib (Xospata)",
                "Ivosidenib (Tibsovo)",
                "Enasidenib (Idhifa)",
                "Clofarabine (Clolar)",
                "Thioguanine",
                "Blinatumomab (Blincyto)",
                "Nelarabine (Arranon)"
            ],
            "mismatches": [
                "Imatinib (Gleevec)",
                "Ponatinib (Iclusig)",
                "Ruxolitinib (Jakafi)",
                "Decitabine (Dacogen)",
                "Azacitidine (Vidaza)",
                "Fludarabine (Fludara)",
                "Cytarabine (Ara-C)",
                "Methotrexate",
                "Daunorubicin",
                "Mercaptopurine (6-MP)",
                "Talacotuzumab",
                "Lenalidomide (Revlimid)"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arranon (Nelarabine)",
                "Azacitidine",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Enasidenib Mesylate",
                "Fludarabine Phosphate",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Ivosidenib",
                "Mercaptopurine",
                "Methotrexate Sodium",
                "Midostaurin",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Olutasidenib",
                "Onureg (Azacitidine)",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tabloid (Thioguanine)",
                "Tasigna (Nilotinib)",
                "Thioguanine",
                "Tibsovo (Ivosidenib)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Xospata (Gilteritinib Fumarate)"
            ],
            "TP": 12,
            "FP": 12,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Ponatinib (Iclusig)",
            "Venetoclax (Venclexta)",
            "Rituximab (Rituxan)",
            "Obinutuzumab (Gazyva)",
            "Ibrutinib (Imbruvica)",
            "Acalabrutinib (Calquence)",
            "Idelalisib (Zydelig)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Midostaurin (Rydapt)",
            "Gilteritinib (Xospata)",
            "Cytarabine (Cytosar-U)",
            "Daunorubicin (Cerubidine)",
            "Vincristine (Oncovin)",
            "Arsenic trioxide (Trisenox)",
            "All-trans retinoic acid (ATRA, Vesanoid)",
            "Fludarabine (Fludara)",
            "Cladribine (Leustatin)",
            "Azacitidine (Vidaza)",
            "Decitabine (Dacogen)",
            "Ruxolitinib (Jakafi)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Ponatinib (Iclusig)",
                "Venetoclax (Venclexta)",
                "Rituximab (Rituxan)",
                "Obinutuzumab (Gazyva)",
                "Ibrutinib (Imbruvica)",
                "Acalabrutinib (Calquence)",
                "Idelalisib (Zydelig)",
                "Blinatumomab (Blincyto)",
                "Inotuzumab ozogamicin (Besponsa)",
                "Midostaurin (Rydapt)",
                "Gilteritinib (Xospata)",
                "Arsenic trioxide (Trisenox)"
            ],
            "mismatches": [
                "Cytarabine (Cytosar-U)",
                "Daunorubicin (Cerubidine)",
                "Vincristine (Oncovin)",
                "All-trans retinoic acid (ATRA, Vesanoid)",
                "Fludarabine (Fludara)",
                "Cladribine (Leustatin)",
                "Azacitidine (Vidaza)",
                "Decitabine (Dacogen)",
                "Ruxolitinib (Jakafi)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Alemtuzumab",
                "Arsenic Trioxide",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosutinib",
                "Calquence (Acalabrutinib Maleate Monohydrate)",
                "Cladribine",
                "Clofarabine",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Fludarabine Phosphate",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Gleevec (Imatinib Mesylate)",
                "Grafapex (Treosulfan)",
                "Ibrutinib",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Midostaurin",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Olutasidenib",
                "Onureg (Azacitidine)",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Trexall (Methotrexate Sodium)",
                "Trisenox (Arsenic Trioxide)",
                "Truxima (Rituximab)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Xospata (Gilteritinib Fumarate)",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 15,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (Gleevec)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Bosutinib (Bosulif)",
            "Ponatinib (Iclusig)",
            "Asparaginase Erwinia chrysanthemi (Erwinaze)",
            "Cyclophosphamide",
            "Cytarabine (Ara-C)",
            "Daunorubicin (Cerubidine)",
            "Doxorubicin (Adriamycin)",
            "Etoposide (VP-16)",
            "Vincristine (Oncovin)",
            "Pegaspargase (Oncaspar)",
            "Methotrexate",
            "Mercaptopurine (6-MP)",
            "Thioguanine (6-TG)",
            "Nelarabine (Arranon)",
            "Clofarabine (Clolar)",
            "Fludarabine (Fludara)",
            "Pentostatin (Nipent)",
            "Rituximab (Rituxan)",
            "Alemtuzumab (Campath)",
            "Ofatumumab (Arzerra)",
            "Blinatumomab (Blincyto)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (Gleevec)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Bosutinib (Bosulif)",
                "Ponatinib (Iclusig)",
                "Asparaginase Erwinia chrysanthemi (Erwinaze)",
                "Cyclophosphamide",
                "Pegaspargase (Oncaspar)",
                "Methotrexate",
                "Mercaptopurine (6-MP)",
                "Thioguanine (6-TG)",
                "Nelarabine (Arranon)",
                "Clofarabine (Clolar)",
                "Rituximab (Rituxan)",
                "Alemtuzumab (Campath)",
                "Ofatumumab (Arzerra)",
                "Blinatumomab (Blincyto)"
            ],
            "mismatches": [
                "Cytarabine (Ara-C)",
                "Daunorubicin (Cerubidine)",
                "Doxorubicin (Adriamycin)",
                "Etoposide (VP-16)",
                "Vincristine (Oncovin)",
                "Fludarabine (Fludara)",
                "Pentostatin (Nipent)"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arranon (Nelarabine)",
                "Arzerra (Ofatumumab)",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Calaspargase Pegol-mknl",
                "Campath (Alemtuzumab)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Doxorubicin Hydrochloride",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gazyva (Obinutuzumab)",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Imatinib Mesylate",
                "Mercaptopurine",
                "Methotrexate Sodium",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Oncaspar (Pegaspargase)",
                "Pegaspargase",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Sprycel (Dasatinib)",
                "Tabloid (Thioguanine)",
                "Tasigna (Nilotinib)",
                "Thioguanine",
                "Trisenox (Arsenic Trioxide)",
                "Truxima (Rituximab)",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)",
                "Xospata (Gilteritinib Fumarate)"
            ],
            "TP": 17,
            "FP": 7,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (BCR-ABL tyrosine kinase inhibitor, STI571)",
            "Dasatinib (BMS-354825)",
            "Nilotinib (AMN107)",
            "Ponatinib (AP24534)",
            "Bosutinib (SKI-606)",
            "Asciminib (ABL001)",
            "Venetoclax (ABT-199)",
            "Glasdegib (PF-04449913)",
            "Gilteritinib (ASP2215)",
            "Midostaurin (PKC412)",
            "Ruxolitinib (INCB018424)",
            "Fedratinib (SAR302503)",
            "Crenolanib (CP-868596)",
            "Quizartinib (AC220)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Inotuzumab ozogamicin (CMC-544)",
            "Blinatumomab (MT103)",
            "Rituximab (Rituxan)",
            "Obinutuzumab (GA101)",
            "Alemtuzumab (Campath)",
            "Clofarabine (Clohare)",
            "Nelarabine (Arranon)",
            "Cladribine (Leustatin)",
            "Vincristine (Oncovin)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Dasatinib",
                "Nilotinib",
                "Ponatinib",
                "Bosutinib",
                "Asciminib",
                "Venetoclax",
                "Glasdegib",
                "Gilteritinib",
                "Midostaurin",
                "Quizartinib",
                "Gemtuzumab ozogamicin",
                "Inotuzumab ozogamicin",
                "Blinatumomab",
                "Rituximab",
                "Obinutuzumab",
                "Alemtuzumab",
                "Clofarabine",
                "Nelarabine",
                "Cladribine"
            ],
            "mismatches": [
                "Imatinib (BCR-ABL tyrosine kinase inhibitor, STI571)",
                "Ruxolitinib (INCB018424)",
                "Fedratinib (SAR302503)",
                "Crenolanib (CP-868596)",
                "Vincristine (Oncovin)"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arranon (Nelarabine)",
                "Asciminib Hydrochloride",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Campath (Alemtuzumab)",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Dasatinib",
                "Gazyva (Obinutuzumab)",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Glasdegib Maleate",
                "Gleevec (Imatinib Mesylate)",
                "Iclusig (Ponatinib Hydrochloride)",
                "Idelalisib",
                "Imatinib Mesylate",
                "Inotuzumab Ozogamicin",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Ofatumumab",
                "Olutasidenib",
                "Pemigatinib",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Quizartinib Dihydrochloride",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Scemblix (Asciminib Hydrochloride)",
                "Sprycel (Dasatinib)",
                "Tasigna (Nilotinib)",
                "Truxima (Rituximab)",
                "Vanflyta (Quizartinib Dihydrochloride)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate",
                "Xospata (Gilteritinib Fumarate)",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 19,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Imatinib (IMT)",
            "Dasatinib (DST)",
            "Nilotinib (NLT)",
            "Bosutinib (BST)",
            "Ponatinib (PNT)",
            "Venetoclax (VNT)",
            "Midostaurin (MDS)",
            "Gilteritinib (GIT)",
            "Acalabrutinib (ACB)",
            "Ibrutinib (IBR)",
            "Idelalisib (IDL)",
            "Blinatumomab (BLN)",
            "Gemtuzumab ozogamicin (GZO)",
            "Inotuzumab ozogamicin (IOZ)",
            "Asparaginase (ASP)",
            "Clofarabine (CLF)",
            "Fludarabine (FLU)",
            "Cytarabine (CYT)",
            "Daunorubicin (DNR)",
            "Doxorubicin (DOX)",
            "Etoposide (ETP)",
            "Methotrexate (MTX)",
            "Mercaptopurine (MCP)",
            "Thioguanine (THG)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Imatinib (IMT)",
                "Dasatinib (DST)",
                "Nilotinib (NLT)",
                "Bosutinib (BST)",
                "Ponatinib (PNT)",
                "Venetoclax (VNT)",
                "Midostaurin (MDS)",
                "Gilteritinib (GIT)",
                "Acalabrutinib (ACB)",
                "Ibrutinib (IBR)",
                "Idelalisib (IDL)",
                "Blinatumomab (BLN)",
                "Gemtuzumab ozogamicin (GZO)",
                "Inotuzumab ozogamicin (IOZ)",
                "Clofarabine (CLF)",
                "Fludarabine (FLU)",
                "Cytarabine (CYT)",
                "Daunorubicin (DNR)",
                "Doxorubicin (DOX)",
                "Methotrexate (MTX)",
                "Mercaptopurine (MCP)",
                "Thioguanine (THG)"
            ],
            "mismatches": [
                "Asparaginase (ASP)",
                "Etoposide (ETP)"
            ],
            "true_referents": [
                "Acalabrutinib Maleate Monohydrate",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Daunorubicin Hydrochloride and Cytarabine Liposome",
                "Doxorubicin Hydrochloride",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gilteritinib Fumarate",
                "Ibrutinib",
                "Idelalisib",
                "Imatinib Mesylate",
                "Imbruvica (Ibrutinib)",
                "Inotuzumab Ozogamicin",
                "Mercaptopurine",
                "Methotrexate Sodium",
                "Midostaurin",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Olutasidenib",
                "Pirtobrutinib",
                "Ponatinib Hydrochloride",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rydapt (Midostaurin)",
                "Tabloid (Thioguanine)",
                "Thioguanine",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Xospata (Gilteritinib Fumarate)",
                "Zanubrutinib",
                "Zydelig (Idelalisib)"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Hydroxyurea (Hydrea)",
            "Mercaptopurine (Purinethol)",
            "Cytarabine (Cytosar-U)",
            "Daunorubicin (Daunomycin)",
            "Mitoxantrone (Novantrone)",
            "Vincristine (Oncovin)",
            "Asparaginase (Elspar)",
            "Idarubicin (Idamycin)",
            "Cladribine (Leustatin)",
            "Fludarabine (Fludara)",
            "Gemtuzumab ozogamicin (Mylotarg)",
            "Topotecan (Hycamtin)",
            "Etoposide (Etopophos)",
            "Caspofungin (Cancidas)",
            "Clofarabine (Clolar)",
            "Pegaspargase (Oncaspar)",
            "Mitoxantrone (Novantrone)",
            "Ibritumomab tiuxetan (Zevalin)",
            "Blinatumomab (Blincyto)",
            "Inotuzumab ozogamicin (Besponsa)",
            "Vosaroxin (Visomitin)",
            "Isturisa (Pomalidomide)",
            "Venetoclax (Venclexta)",
            "Luspatercept (Reblozyl)",
            "Gilteritinib (XOSPATA)",
            "Ibrutinib (Imbruvica)",
            "Axicabtagene ciloleucel (Yescarta)",
            "Tisagenlecleucel (Kymriah)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Hydroxyurea",
                "Mercaptopurine",
                "Cytarabine",
                "Daunorubicin Hydrochloride",
                "Mitoxantrone Hydrochloride",
                "Vincristine Sulfate",
                "Idarubicin Hydrochloride",
                "Cladribine",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Clofarabine",
                "Pegaspargase",
                "Blinatumomab",
                "Inotuzumab Ozogamicin",
                "Venetoclax",
                "Ibrutinib"
            ],
            "mismatches": [
                "Asparaginase (Elspar)",
                "Topotecan (Hycamtin)",
                "Etoposide (Etopophos)",
                "Caspofungin (Cancidas)",
                "Mitoxantrone (Novantrone)",
                "Ibritumomab tiuxetan (Zevalin)",
                "Vosaroxin (Visomitin)",
                "Isturisa (Pomalidomide)",
                "Luspatercept (Reblozyl)",
                "Gilteritinib (XOSPATA)",
                "Axicabtagene ciloleucel (Yescarta)",
                "Tisagenlecleucel (Kymriah)"
            ],
            "true_referents": [
                "Alemtuzumab",
                "Arsenic Trioxide",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Asparlas (Calaspargase Pegol-mknl)",
                "Azacitidine",
                "Besponsa (Inotuzumab Ozogamicin) ",
                "Blinatumomab",
                "Blincyto (Blinatumomab)",
                "Busulfan",
                "Busulfex (Busulfan)",
                "Calaspargase Pegol-mknl",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Daunorubicin Hydrochloride",
                "Daurismo (Glasdegib Maleate)",
                "Dexamethasone",
                "Doxorubicin Hydrochloride",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gemtuzumab Ozogamicin",
                "Gleevec (Imatinib Mesylate)",
                "Hydrea (Hydroxyurea)",
                "Hydroxyurea",
                "Ibrutinib",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Idhifa (Enasidenib Mesylate)",
                "Imatinib Mesylate",
                "Imkeldi (Imatinib Mesylate)",
                "Inotuzumab Ozogamicin",
                "Leukeran (Chlorambucil)",
                "Mercaptopurine",
                "Mitoxantrone Hydrochloride",
                "Mylotarg (Gemtuzumab Ozogamicin)",
                "Nelarabine",
                "Nilotinib",
                "Obinutuzumab",
                "Oncaspar (Pegaspargase)",
                "Pegaspargase",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituxan Hycela (Rituximab and Hyaluronidase Human)",
                "Trexall (Methotrexate Sodium)",
                "Venclexta (Venetoclax)",
                "Venetoclax",
                "Vincristine Sulfate"
            ],
            "TP": 16,
            "FP": 12,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": [
            "Mercaptopurine (Purinethol)",
            "Rituximab (Rituxan)",
            "Dasatinib (Sprycel)",
            "Nilotinib (Tasigna)",
            "Imatinib (Gleevec)",
            "Bosutinib (Bosulif)",
            "Omacetaxine (Synribo)",
            "Cladribine (Leustatin)",
            "Fludarabine (Fludara)",
            "Arabinoside cytosine (Cytosar-U)",
            "Idarubicin (Idamycin)",
            "Mitoxantrone (Novantrone)",
            "Teniposide (Vumon)",
            "Vinblastine (Velban)",
            "Vincristine (Oncovin)",
            "Prednisone (Deltasone)",
            "Cyclophosphamide (Cytoxan)",
            "Doxorubicin (Adriamycin)",
            "Vidarabine (Vira-A)",
            "Asparaginase (Elspar)",
            " Nelarabine (Arranon)",
            " Clofarabine (Clolar)",
            "Decitabine (Dacogen)",
            "Midostaurin (Rydapt)",
            "Enasidenib (Idhifa)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Nelarabine (Arranon)",
                "Clofarabine (Clolar)",
                "Mercaptopurine (Purinethol)",
                "Rituximab (Rituxan)",
                "Dasatinib (Sprycel)",
                "Nilotinib (Tasigna)",
                "Imatinib (Gleevec)",
                "Bosutinib (Bosulif)",
                "Omacetaxine (Synribo)",
                "Idarubicin (Idamycin)",
                "Vincristine (Oncovin)",
                "Midostaurin (Rydapt)"
            ],
            "mismatches": [
                "Cladribine (Leustatin)",
                "Fludarabine (Fludara)",
                "Arabinoside cytosine (Cytosar-U)",
                "Mitoxantrone (Novantrone)",
                "Teniposide (Vumon)",
                "Vinblastine (Velban)",
                "Prednisone (Deltasone)",
                "Cyclophosphamide (Cytoxan)",
                "Doxorubicin (Adriamycin)",
                "Vidarabine (Vira-A)",
                "Asparaginase (Elspar)",
                "Decitabine (Dacogen)",
                "Enasidenib (Idhifa)"
            ],
            "true_referents": [
                "Arranon (Nelarabine)",
                "Asparaginase Erwinia Chrysanthemi",
                "Asparaginase Erwinia Chrysanthemi (Recombinant)-rywn",
                "Azacitidine",
                "Bosulif (Bosutinib)",
                "Bosutinib",
                "Chlorambucil",
                "Cladribine",
                "Clofarabine",
                "Clolar (Clofarabine)",
                "Cyclophosphamide",
                "Cytarabine",
                "Dasatinib",
                "Daunorubicin Hydrochloride",
                "Dexamethasone",
                "Doxorubicin Hydrochloride",
                "Erwinaze (Asparaginase Erwinia Chrysanthemi)",
                "Fludarabine Phosphate",
                "Gleevec (Imatinib Mesylate)",
                "Hydroxyurea",
                "Idamycin PFS (Idarubicin Hydrochloride)",
                "Idarubicin Hydrochloride",
                "Imatinib Mesylate",
                "Mercaptopurine",
                "Midostaurin",
                "Mitoxantrone Hydrochloride",
                "Nelarabine",
                "Nilotinib",
                "Omacetaxine Mepesuccinate",
                "Prednisone",
                "Purinethol (Mercaptopurine)",
                "Purixan (Mercaptopurine)",
                "Rituxan (Rituximab)",
                "Rituximab",
                "Rydapt (Midostaurin)",
                "Sprycel (Dasatinib)",
                "Synribo (Omacetaxine Mepesuccinate)",
                "Tasigna (Nilotinib)",
                "Truxima (Rituximab)",
                "Vincristine Sulfate",
                "Vyxeos (Daunorubicin Hydrochloride and Cytarabine Liposome)"
            ],
            "TP": 12,
            "FP": 13,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for leukemia",
        "domain": "medicine",
        "response": "[\n  {\n    \"referent\": \"Amsacrine\",\n    \"abbrev\": \"AMS\"\n  },\n  {\n    \"referent\": \"Arsenic trioxide\",\n    \"abbrev\": \"ATO\"\n  },\n  {\n    \"referent\": \"Asparaginase\",\n    \"abbrev\": \"ASP\"\n  },\n  {\n    \"referent\": \"Auranofin\",\n    \"abbrev\": \"AUR\"\n  },\n  {\n    \"referent\": \"Azacitidine\",\n    \"abbrev\": \"AZA\"\n  },\n  {\n    \"referent\": \"Bevacizumab\",\n    \"abbrev\": \"BVZ\"\n  },\n  {\n    \"referent\": \"Bendamustine\",\n    \"abbrev\": \"BEN\"\n  },\n  {\n    \"referent\": \"Bortezomib\",\n    \"abbrev\": \"BTZ\"\n  },\n  {\n    \"referent\": \"Busulfan\",\n    \"abbrev\": \"BUS\"\n  },\n  {\n    \"referent\": \"Carboplatin\",\n    \"abbrev\": \"CBP\"\n  },\n  {\n    \"referent\": \"Chlorambucil\",\n  },\n  {\n    \"referent\": \"Clofarabine\",\n  },\n  {\n    \"referent\": \"Cytarabine\",\n  },\n  {\n    \"referent\": \"Daunorubicin\",\n  },\n  {\n    \"referent\": \"Doxorubicin\",\n  },\n  {\n    \"referent\": \"Etoposide\",\n  },\n  {\n    \"referent\": \"Fludarabine\",\n  },\n  {\n    \"referent\": \"Idarubicin\",\n  },\n  {\n    \"referent\": \"Imatinib\",\n  },\n  {\n    \"referent\": \"Interferon alpha\",\n  },\n  {\n    \"referent\": \"Irinotecan\",\n  },\n  {\n    \"referent\": \"Lomustine\",\n  },\n  {\n    \"referent\": \"Mitoxantrone\",\n  },\n  {\n    \"referent\": \"Mitomycin C\",\n  },\n  {\n    \"referent\": \"Nitrosoureas\",\n  },\n  {\n    \"referent\": \"Pegaspargase\",\n  },\n  {\n    \"referent\": \"Pralatrexate\",\n  },\n  {\n    \"referent\": \"Rituximab\",\n  },\n  {\n    \"referent\": \"Thalidomide\",\n  },\n  {\n    \"referent\": \"Tretinoin\",\n  }\n]",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    }
]