[
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SUTENT)",
            "Pazopanib (VOTRIENT)",
            "Axitinib (INVEGA)",
            "Bevacizumab (AVASTIN)",
            "Cabozantinib (COMETRIQ)",
            "Temsirolimus (TORISEL)",
            "Nivolumab (OPDIVO)",
            "Ibritumomab tiuxetan (ZEVALIN)",
            "Lenvatinib (LENVIMA)",
            "Everolimus (AFINITOR)",
            "Ipilimumab (YERVOY)",
            "Sorafenib (NEXAVAR)",
            "Atezolizumab (TECENTRIQ)",
            "Cabozantinib (CABOMETYX)",
            "Pembrolizumab (KEYTRUDA)",
            "Tivozanib (AVASTIN)",
            "Olaratumab (LARTRUVO)",
            "Tecentriq (TECENTRIQ)",
            "Avelumab (BAVENCIO)",
            "Durvalumab (IMFINZI)",
            "Regorafenib (STIVARGA)",
            "Talimogene laherparepvec (T-VEC)",
            "Nintedanib (OFEV)",
            "Aflibercept (ZALTRAP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SUTENT)",
                "Pazopanib (VOTRIENT)",
                "Axitinib (INVEGA)",
                "Bevacizumab (AVASTIN)",
                "Cabozantinib (COMETRIQ)",
                "Temsirolimus (TORISEL)",
                "Nivolumab (OPDIVO)",
                "Ibritumomab tiuxetan (ZEVALIN)",
                "Lenvatinib (LENVIMA)",
                "Everolimus (AFINITOR)",
                "Ipilimumab (YERVOY)",
                "Sorafenib (NEXAVAR)",
                "Atezolizumab (TECENTRIQ)",
                "Cabozantinib (CABOMETYX)",
                "Pembrolizumab (KEYTRUDA)",
                "Olaratumab (LARTRUVO)",
                "Tecentriq (TECENTRIQ)",
                "Avelumab (BAVENCIO)",
                "Durvalumab (IMFINZI)",
                "Regorafenib (STIVARGA)",
                "Talimogene laherparepvec (T-VEC)",
                "Nintedanib (OFEV)",
                "Aflibercept (ZALTRAP)"
            ],
            "mismatches": [
                "Tivozanib (AVASTIN)"
            ],
            "true_referents": [
                "Aflibercept (ZALTRAP)",
                "Atezolizumab (TECENTRIQ)",
                "Avelumab (BAVENCIO)",
                "Axitinib (INVEGA)",
                "Bevacizumab (AVASTIN)",
                "Cabozantinib (CABOMETYX)",
                "Cabozantinib (COMETRIQ)",
                "Durvalumab (IMFINZI)",
                "Everolimus (AFINITOR)",
                "Ibritumomab tiuxetan (ZEVALIN)",
                "Ipilimumab (YERVOY)",
                "Lenvatinib (LENVIMA)",
                "Nintedanib (OFEV)",
                "Nivolumab (OPDIVO)",
                "Olaratumab (LARTRUVO)",
                "Pazopanib (VOTRIENT)",
                "Pembrolizumab (KEYTRUDA)",
                "Regorafenib (STIVARGA)",
                "Sorafenib (NEXAVAR)",
                "Sunitinib (SUTENT)",
                "Talimogene laherparepvec (T-VEC)",
                "Tecentriq (TECENTRIQ)",
                "Temsirolimus (TORISEL)",
                "Tivozanib (AVASTIN)"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "phi-v4",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SU011248)",
            "Pazopanib (GW786034)",
            "Axitinib (AG-013736)",
            "Cabozantinib (XL184)",
            "Lenvatinib (E7080)",
            "Tivozanib (AV-951)",
            "Everolimus (RAD001)",
            "Temsirolimus (CCI-779)",
            "Sorafenib (BAY 43-9006)",
            "Pembrolizumab (MK-3475) - in combination with axitinib",
            "Nivolumab (BMS-936558) - in combination with ipilimumab",
            "Atezolizumab (MPDL3280A) - in combination with bevacizumab",
            "Avelumab (MSB0010718C) - in combination with axitinib",
            "Durvalumab (MEDI4736) - in combination with tremelimumab",
            "Enfortumab vedotin (SAV662)",
            "Cediranib (Recentin)",
            "Ramucirumab (CYRAMZA) - in combination with FOLFIRI",
            "Regorafenib (BAY 73-4506)",
            "Lapatinib (GW572016)",
            "Imatinib (Gleevec)",
            "Dasatinib (BMS-354825)",
            "Nilotinib (TAS-102)",
            "Bosutinib (SKI-606)",
            "Ponatinib (AP24534)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SU011248)",
                "Pazopanib (GW786034)",
                "Axitinib (AG-013736)",
                "Cabozantinib (XL184)",
                "Lenvatinib (E7080)",
                "Tivozanib (AV-951)",
                "Everolimus (RAD001)",
                "Temsirolimus (CCI-779)",
                "Sorafenib (BAY 43-9006)",
                "Pembrolizumab (MK-3475) - in combination with axitinib",
                "Nivolumab (BMS-936558) - in combination with ipilimumab",
                "Atezolizumab (MPDL3280A) - in combination with bevacizumab",
                "Avelumab (MSB0010718C) - in combination with axitinib",
                "Durvalumab (MEDI4736) - in combination with tremelimumab",
                "Enfortumab vedotin (SAV662)",
                "Cediranib (Recentin)",
                "Ramucirumab (CYRAMZA) - in combination with FOLFIRI",
                "Regorafenib (BAY 73-4506)",
                "Lapatinib (GW572016)",
                "Imatinib (Gleevec)",
                "Dasatinib (BMS-354825)",
                "Nilotinib (TAS-102)",
                "Bosutinib (SKI-606)",
                "Ponatinib (AP24534)"
            ],
            "mismatches": [],
            "true_referents": [
                "Atezolizumab (MPDL3280A) - in combination with bevacizumab",
                "Avelumab (MSB0010718C) - in combination with axitinib",
                "Axitinib (AG-013736)",
                "Bosutinib (SKI-606)",
                "Cabozantinib (XL184)",
                "Cediranib (Recentin)",
                "Dasatinib (BMS-354825)",
                "Durvalumab (MEDI4736) - in combination with tremelimumab",
                "Enfortumab vedotin (SAV662)",
                "Everolimus (RAD001)",
                "Imatinib (Gleevec)",
                "Lapatinib (GW572016)",
                "Lenvatinib (E7080)",
                "Nilotinib (TAS-102)",
                "Nivolumab (BMS-936558) - in combination with ipilimumab",
                "Pazopanib (GW786034)",
                "Pembrolizumab (MK-3475) - in combination with axitinib",
                "Ponatinib (AP24534)",
                "Ramucirumab (CYRAMZA) - in combination with FOLFIRI",
                "Regorafenib (BAY 73-4506)",
                "Sorafenib (BAY 43-9006)",
                "Sunitinib (SU011248)",
                "Temsirolimus (CCI-779)",
                "Tivozanib (AV-951)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Sorafenib (Nexavar)",
            "Temsirolimus (Torisel)",
            "Everolimus (Afinitor)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Pembrolizumab (Keytruda)",
            "Lenvatinib (Lenvima)",
            "Bevacizumab (Avastin)",
            "Tivozanib (Fotivda)",
            "Axitinib (Inlyta)",
            "Tivozanib (Fotivda)",
            "Crizotinib (Xalkori)",
            "Lenvatinib (Lenvima)",
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Sorafenib (Nexavar)",
            "Temsirolimus (Torisel)",
            "Everolimus (Afinitor)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Sorafenib (Nexavar)",
                "Temsirolimus (Torisel)",
                "Everolimus (Afinitor)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Pembrolizumab (Keytruda)",
                "Lenvatinib (Lenvima)",
                "Bevacizumab (Avastin)",
                "Tivozanib (Fotivda)",
                "Crizotinib (Xalkori)"
            ],
            "mismatches": [],
            "true_referents": [
                "Axitinib (Inlyta)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Crizotinib (Xalkori)",
                "Everolimus (Afinitor)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)"
            ],
            "TP": 14,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gemma-3",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SUT)",
            "Pazopanib (PAZ)",
            "Sorafenib (SOR)",
            "Cabozantinib (CAB)",
            "Bevacizumab (BEV)",
            "Everolimus (EVE)",
            "Temsirolimus (TEM)",
            "Nivolumab (NIV)",
            "Pembrolizumab (PEM)",
            "Axitinib (AXI)",
            "Regorafenib (REG)",
            "Belzutifan (BEL)",
            "Lenvatinib (LEN)",
            "Ipilimumab (IPI)",
            "Cemiplimab (CEM)",
            "Futibatinib (FUT)",
            "Infigratinib (INF)",
            "Sugematinib (SUG)",
            "Tivozanib (TIV)",
            "Mizoribine (MZR)",
            "Sacituzumab Govitecan-hziy (SG)",
            "Lisocabtagene Maraleucel (LISO)",
            "Brexucabtagene Autoleucel (BREX)",
            "Relatlimab (REL)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SUT)",
                "Pazopanib (PAZ)",
                "Sorafenib (SOR)",
                "Cabozantinib (CAB)",
                "Bevacizumab (BEV)",
                "Everolimus (EVE)",
                "Temsirolimus (TEM)",
                "Nivolumab (NIV)",
                "Pembrolizumab (PEM)",
                "Axitinib (AXI)",
                "Regorafenib (REG)",
                "Belzutifan (BEL)",
                "Lenvatinib (LEN)",
                "Ipilimumab (IPI)",
                "Cemiplimab (CEM)",
                "Futibatinib (FUT)",
                "Infigratinib (INF)",
                "Sugematinib (SUG)",
                "Tivozanib (TIV)",
                "Mizoribine (MZR)",
                "Sacituzumab Govitecan-hziy (SG)",
                "Lisocabtagene Maraleucel (LISO)",
                "Brexucabtagene Autoleucel (BREX)",
                "Relatlimab (REL)"
            ],
            "mismatches": [],
            "true_referents": [
                "Axitinib (AXI)",
                "Belzutifan (BEL)",
                "Bevacizumab (BEV)",
                "Brexucabtagene Autoleucel (BREX)",
                "Cabozantinib (CAB)",
                "Cemiplimab (CEM)",
                "Everolimus (EVE)",
                "Futibatinib (FUT)",
                "Infigratinib (INF)",
                "Ipilimumab (IPI)",
                "Lenvatinib (LEN)",
                "Lisocabtagene Maraleucel (LISO)",
                "Mizoribine (MZR)",
                "Nivolumab (NIV)",
                "Pazopanib (PAZ)",
                "Pembrolizumab (PEM)",
                "Regorafenib (REG)",
                "Relatlimab (REL)",
                "Sacituzumab Govitecan-hziy (SG)",
                "Sorafenib (SOR)",
                "Sugematinib (SUG)",
                "Sunitinib (SUT)",
                "Temsirolimus (TEM)",
                "Tivozanib (TIV)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Cabozantinib (Cabometyx)",
            "Axitinib (Inlyta)",
            "Nivolumab (Opdivo)",
            "Lenvatinib (Lenvima)",
            "Sorafenib (Nexavar)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Bevacizumab (Avastin)",
            "Pembrolizumab (Keytruda)",
            "Ipilimumab (Yervoy)",
            "Tivozanib (Fotivda)",
            "Aldesleukin (Proleukin)",
            "Interferon alfa-2b (Intron A)",
            "Avelumab (Bavencio)",
            "Belzutifan (Welireg)",
            "Lutetium Lu 177 dotatate (Lutathera)",
            "Nivolumab plus Ipilimumab (Opdivo plus Yervoy)",
            "Cabozantinib plus Nivolumab (Cabometyx plus Opdivo)",
            "Lenvatinib plus Pembrolizumab (Lenvima plus Keytruda)",
            "Axitinib plus Pembrolizumab (Inlyta plus Keytruda)",
            "Axitinib plus Avelumab (Inlyta plus Bavencio)",
            "Tivozanib plus Nivolumab (Fotivda plus Opdivo)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Cabozantinib (Cabometyx)",
                "Axitinib (Inlyta)",
                "Nivolumab (Opdivo)",
                "Lenvatinib (Lenvima)",
                "Sorafenib (Nexavar)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Bevacizumab (Avastin)",
                "Pembrolizumab (Keytruda)",
                "Ipilimumab (Yervoy)",
                "Tivozanib (Fotivda)",
                "Aldesleukin (Proleukin)",
                "Interferon alfa-2b (Intron A)",
                "Avelumab (Bavencio)",
                "Belzutifan (Welireg)",
                "Lutetium Lu 177 dotatate (Lutathera)",
                "Nivolumab plus Ipilimumab (Opdivo plus Yervoy)",
                "Cabozantinib plus Nivolumab (Cabometyx plus Opdivo)",
                "Lenvatinib plus Pembrolizumab (Lenvima plus Keytruda)",
                "Axitinib plus Pembrolizumab (Inlyta plus Keytruda)",
                "Axitinib plus Avelumab (Inlyta plus Bavencio)",
                "Tivozanib plus Nivolumab (Fotivda plus Opdivo)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aldesleukin (Proleukin)",
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Axitinib plus Avelumab (Inlyta plus Bavencio)",
                "Axitinib plus Pembrolizumab (Inlyta plus Keytruda)",
                "Belzutifan (Welireg)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Cabozantinib plus Nivolumab (Cabometyx plus Opdivo)",
                "Everolimus (Afinitor)",
                "Interferon alfa-2b (Intron A)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Lenvatinib plus Pembrolizumab (Lenvima plus Keytruda)",
                "Lutetium Lu 177 dotatate (Lutathera)",
                "Nivolumab (Opdivo)",
                "Nivolumab plus Ipilimumab (Opdivo plus Yervoy)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Tivozanib plus Nivolumab (Fotivda plus Opdivo)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SU11248)",
            "Sorafenib (Nexavar)",
            "Pazopanib (Votrient)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Bevacizumab (Avastin)",
            "Lenvatinib (Lenvima)",
            "Tivozanib (Fotivda)",
            "Durvalumab (Imfinzi)",
            "Atezolizumab (Tecentriq)",
            "Regorafenib (Stivarga)",
            "Ramucirumab (Cyramza)",
            "Nintedanib (Ofev)",
            "Erlotinib (Tarceva)",
            "Crizotinib (Xalkori)",
            "Brentuximab vedotin (Adcetris)",
            "Trametinib (Mekinist)",
            "Vemurafenib (Zelboraf)",
            "Dabrafenib (Tafinlar)",
            "Glembatumumab vedotin (CDX-011)",
            "Atezolizumab/Bevacizumab (Atezolizumab + Bevacizumab)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SU11248)",
                "Sorafenib (Nexavar)",
                "Pazopanib (Votrient)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Bevacizumab (Avastin)",
                "Lenvatinib (Lenvima)",
                "Tivozanib (Fotivda)",
                "Durvalumab (Imfinzi)",
                "Atezolizumab (Tecentriq)",
                "Regorafenib (Stivarga)",
                "Ramucirumab (Cyramza)",
                "Nintedanib (Ofev)",
                "Erlotinib (Tarceva)",
                "Crizotinib (Xalkori)",
                "Brentuximab vedotin (Adcetris)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)",
                "Dabrafenib (Tafinlar)",
                "Glembatumumab vedotin (CDX-011)"
            ],
            "mismatches": [
                "Atezolizumab/Bevacizumab (Atezolizumab + Bevacizumab)"
            ],
            "true_referents": [
                "Atezolizumab (Tecentriq)",
                "Axitinib (Inlyta)",
                "Bevacizumab (Avastin)",
                "Brentuximab vedotin (Adcetris)",
                "Cabozantinib (Cabometyx)",
                "Crizotinib (Xalkori)",
                "Dabrafenib (Tafinlar)",
                "Durvalumab (Imfinzi)",
                "Erlotinib (Tarceva)",
                "Everolimus (Afinitor)",
                "Glembatumumab vedotin (CDX-011)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Nintedanib (Ofev)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sorafenib (Nexavar)",
                "Sunitinib (SU11248)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Trametinib (Mekinist)",
                "Vemurafenib (Zelboraf)"
            ],
            "TP": 24,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4-32k",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Axitinib (AXI)",
            "Sunitinib (SUN)",
            "Pazopanib (PAZ)",
            "Cabozantinib (CAB)",
            "Everolimus (EVE)",
            "Bevacizumab (BEV)",
            "Sorafenib (SOR)",
            "Nivolumab (NIV)",
            "Temsirolimus (TEM)",
            "Lenvatinib (LEN)",
            "Interferon Alfa (INT)",
            "Ramicirumab (RAM)",
            "Atezolizumab (ATE)",
            "Avastin (AVA)",
            "Keytruda (KEY)",
            "Opdivo (OPD)",
            "Torisel (TOR)",
            "Inlyta (INL)",
            "Nexavar (NEX)",
            "Sutent (SUT)",
            "Votrient (VOT)",
            "Cometriq (COM)",
            "Afinitor (AFI)",
            "Stivarga (STI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Axitinib (AXI)",
                "Sunitinib (SUN)",
                "Pazopanib (PAZ)",
                "Cabozantinib (CAB)",
                "Everolimus (EVE)",
                "Bevacizumab (BEV)",
                "Sorafenib (SOR)",
                "Nivolumab (NIV)",
                "Temsirolimus (TEM)",
                "Lenvatinib (LEN)",
                "Interferon Alfa (INT)",
                "Ramicirumab (RAM)",
                "Atezolizumab (ATE)",
                "Avastin (AVA)",
                "Keytruda (KEY)",
                "Opdivo (OPD)",
                "Torisel (TOR)",
                "Inlyta (INL)",
                "Nexavar (NEX)",
                "Sutent (SUT)",
                "Votrient (VOT)",
                "Cometriq (COM)",
                "Afinitor (AFI)",
                "Stivarga (STI)"
            ],
            "mismatches": [],
            "true_referents": [
                "Afinitor (AFI)",
                "Atezolizumab (ATE)",
                "Avastin (AVA)",
                "Axitinib (AXI)",
                "Bevacizumab (BEV)",
                "Cabozantinib (CAB)",
                "Cometriq (COM)",
                "Everolimus (EVE)",
                "Inlyta (INL)",
                "Interferon Alfa (INT)",
                "Keytruda (KEY)",
                "Lenvatinib (LEN)",
                "Nexavar (NEX)",
                "Nivolumab (NIV)",
                "Opdivo (OPD)",
                "Pazopanib (PAZ)",
                "Ramicirumab (RAM)",
                "Sorafenib (SOR)",
                "Stivarga (STI)",
                "Sunitinib (SUN)",
                "Sutent (SUT)",
                "Temsirolimus (TEM)",
                "Torisel (TOR)",
                "Votrient (VOT)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SUTENT)",
            "Pazopanib (VOTRIENT)",
            "Cabozantinib (CABOMETYX)",
            "Axitinib (INLYTA)",
            "Lenvatinib (LENVIMA)",
            "Everolimus (AFINITOR)",
            "Temsirolimus (TORISEL)",
            "Bevacizumab (AVASTIN)",
            "Nivolumab (OPDIVO)",
            "Pembrolizumab (KEYTRUDA)",
            "Avelumab (BAVENCIO)",
            "Ipilimumab (YERVOY)",
            "Atezolizumab (TECENTRIQ)",
            "Acalabrutinib (CALQUENCE)",
            "Alectinib (ALECENSA)",
            "Bosutinib (BOSULIF)",
            "Brigatinib (ALUNBRIG)",
            "Ceritinib (ZYKADIA)",
            "Crizotinib (XALKORI)",
            "Dabrafenib (TAFINLAR)",
            "Dasatinib (SPRYCEL)",
            "Erlotinib (TARCEVA)",
            "Gefitinib (IRESSA)",
            "Ibrutinib (IMBRUVICA)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SUTENT)",
                "Pazopanib (VOTRIENT)",
                "Cabozantinib (CABOMETYX)",
                "Axitinib (INLYTA)",
                "Lenvatinib (LENVIMA)",
                "Everolimus (AFINITOR)",
                "Temsirolimus (TORISEL)",
                "Bevacizumab (AVASTIN)",
                "Nivolumab (OPDIVO)",
                "Pembrolizumab (KEYTRUDA)",
                "Avelumab (BAVENCIO)",
                "Ipilimumab (YERVOY)",
                "Atezolizumab (TECENTRIQ)",
                "Acalabrutinib (CALQUENCE)",
                "Alectinib (ALECENSA)",
                "Bosutinib (BOSULIF)",
                "Brigatinib (ALUNBRIG)",
                "Ceritinib (ZYKADIA)",
                "Crizotinib (XALKORI)",
                "Dabrafenib (TAFINLAR)",
                "Dasatinib (SPRYCEL)",
                "Erlotinib (TARCEVA)",
                "Gefitinib (IRESSA)",
                "Ibrutinib (IMBRUVICA)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acalabrutinib (CALQUENCE)",
                "Alectinib (ALECENSA)",
                "Atezolizumab (TECENTRIQ)",
                "Avelumab (BAVENCIO)",
                "Axitinib (INLYTA)",
                "Bevacizumab (AVASTIN)",
                "Bosutinib (BOSULIF)",
                "Brigatinib (ALUNBRIG)",
                "Cabozantinib (CABOMETYX)",
                "Ceritinib (ZYKADIA)",
                "Crizotinib (XALKORI)",
                "Dabrafenib (TAFINLAR)",
                "Dasatinib (SPRYCEL)",
                "Erlotinib (TARCEVA)",
                "Everolimus (AFINITOR)",
                "Gefitinib (IRESSA)",
                "Ibrutinib (IMBRUVICA)",
                "Ipilimumab (YERVOY)",
                "Lenvatinib (LENVIMA)",
                "Nivolumab (OPDIVO)",
                "Pazopanib (VOTRIENT)",
                "Pembrolizumab (KEYTRUDA)",
                "Sunitinib (SUTENT)",
                "Temsirolimus (TORISEL)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "o1-mini",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Sorafenib (Nexavar)",
            "Temsirolimus (Torisel)",
            "Everolimus (Afinitor)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Bevacizumab (Avastin)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Avelumab (Bavencio)",
            "Ipilimumab (Yervoy)",
            "Lenvatinib (Lenvima)",
            "Tivozanib (Fotivda)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Sorafenib (Nexavar)",
                "Temsirolimus (Torisel)",
                "Everolimus (Afinitor)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Bevacizumab (Avastin)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Avelumab (Bavencio)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Tivozanib (Fotivda)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)"
            ],
            "TP": 14,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Sorafenib (Nexavar)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Lenvatinib (Lenvima)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Ipilimumab (Yervoy)",
            "Bevacizumab (Avastin)",
            "Tivozanib (Fotivda)",
            "Belzutifan (Welireg)",
            "Avelumab (Bavencio)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Sorafenib (Nexavar)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Ipilimumab (Yervoy)",
                "Bevacizumab (Avastin)",
                "Tivozanib (Fotivda)",
                "Belzutifan (Welireg)",
                "Avelumab (Bavencio)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Belzutifan (Welireg)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)"
            ],
            "TP": 15,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Axitinib (Inlyta)",
            "Bevacizumab (Avastin)",
            "Cabozantinib (Cabometyx)",
            "Everolimus (Afinitor)",
            "Lenvatinib (Lenvima)",
            "Nivolumab (Opdivo)",
            "Pazopanib (Votrient)",
            "Pembrolizumab (Keytruda)",
            "Sorafenib (Nexavar)",
            "Sunitinib (Sutent)",
            "Temsirolimus (Torisel)",
            "Tivozanib (Fotivda)",
            "Avelumab (Bavencio)",
            "Ipilimumab (Yervoy)",
            "Lenvatinib/Everolimus (Kisplyx)",
            "Axitinib/Avelumab (Bavencio)",
            "Lenvatinib/Pembrolizumab (Keytruda)",
            "Nivolumab/Ipilimumab (Yervoy)",
            "Bevacizumab/Atezolizumab (Tecentriq)",
            "Cabozantinib/Nivolumab (Opdivo)",
            "Axitinib/Pembrolizumab (Keytruda)",
            "Lenvatinib/Nivolumab (Opdivo)",
            "Cabozantinib/Atezolizumab (Tecentriq)",
            "Sitravatinib (Sitra)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Axitinib (Inlyta)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Avelumab (Bavencio)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib/Everolimus (Kisplyx)",
                "Axitinib/Avelumab (Bavencio)",
                "Lenvatinib/Pembrolizumab (Keytruda)",
                "Nivolumab/Ipilimumab (Yervoy)",
                "Bevacizumab/Atezolizumab (Tecentriq)",
                "Cabozantinib/Nivolumab (Opdivo)",
                "Axitinib/Pembrolizumab (Keytruda)",
                "Lenvatinib/Nivolumab (Opdivo)",
                "Cabozantinib/Atezolizumab (Tecentriq)",
                "Sitravatinib (Sitra)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Axitinib/Avelumab (Bavencio)",
                "Axitinib/Pembrolizumab (Keytruda)",
                "Bevacizumab (Avastin)",
                "Bevacizumab/Atezolizumab (Tecentriq)",
                "Cabozantinib (Cabometyx)",
                "Cabozantinib/Atezolizumab (Tecentriq)",
                "Cabozantinib/Nivolumab (Opdivo)",
                "Everolimus (Afinitor)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Lenvatinib/Everolimus (Kisplyx)",
                "Lenvatinib/Nivolumab (Opdivo)",
                "Lenvatinib/Pembrolizumab (Keytruda)",
                "Nivolumab (Opdivo)",
                "Nivolumab/Ipilimumab (Yervoy)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sitravatinib (Sitra)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SU011248)",
            "Sorafenib (BAY 43-9006)",
            "Pazopanib (GW786034)",
            "Axitinib (AG-013736)",
            "Cabozantinib (XL184)",
            "Lenvatinib (E7080)",
            "Everolimus (RAD001)",
            "Temsirolimus (CCI-779)",
            "Bevacizumab (Avastin)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Pembrolizumab (Keytruda)",
            "Atezolizumab (Tecentriq)",
            "Avelumab (Bavencio)",
            "Durvalumab (Imfinzi)",
            "Cemiplimab (Libtayo)",
            "Tivozanib (AV-951)",
            "Savolitinib (AZD6094)",
            "Belzutifan (PT2977)",
            "Tivantinib (ARQ 197)",
            "Cabometyx (Cabozantinib)",
            "Inlyta (Axitinib)",
            "Votrient (Pazopanib)",
            "Afinitor (Everolimus)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SU011248)",
                "Sorafenib (BAY 43-9006)",
                "Pazopanib (GW786034)",
                "Axitinib (AG-013736)",
                "Cabozantinib (XL184)",
                "Lenvatinib (E7080)",
                "Everolimus (RAD001)",
                "Temsirolimus (CCI-779)",
                "Bevacizumab (Avastin)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Pembrolizumab (Keytruda)",
                "Atezolizumab (Tecentriq)",
                "Avelumab (Bavencio)",
                "Durvalumab (Imfinzi)",
                "Cemiplimab (Libtayo)",
                "Tivozanib (AV-951)",
                "Savolitinib (AZD6094)",
                "Belzutifan (PT2977)",
                "Tivantinib (ARQ 197)",
                "Cabometyx (Cabozantinib)",
                "Inlyta (Axitinib)",
                "Votrient (Pazopanib)",
                "Afinitor (Everolimus)"
            ],
            "mismatches": [],
            "true_referents": [
                "Afinitor (Everolimus)",
                "Atezolizumab (Tecentriq)",
                "Avelumab (Bavencio)",
                "Axitinib (AG-013736)",
                "Belzutifan (PT2977)",
                "Bevacizumab (Avastin)",
                "Cabometyx (Cabozantinib)",
                "Cabozantinib (XL184)",
                "Cemiplimab (Libtayo)",
                "Durvalumab (Imfinzi)",
                "Everolimus (RAD001)",
                "Inlyta (Axitinib)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (E7080)",
                "Nivolumab (Opdivo)",
                "Pazopanib (GW786034)",
                "Pembrolizumab (Keytruda)",
                "Savolitinib (AZD6094)",
                "Sorafenib (BAY 43-9006)",
                "Sunitinib (SU011248)",
                "Temsirolimus (CCI-779)",
                "Tivantinib (ARQ 197)",
                "Tivozanib (AV-951)",
                "Votrient (Pazopanib)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Lenvatinib (Lenvima)",
            "Sorafenib (Nexavar)",
            "Bevacizumab (Avastin)",
            "Temsirolimus (Torisel)",
            "Everolimus (Afinitor)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Ipilimumab (Yervoy)",
            "Tivozanib (Fotivda)",
            "Lenvima (lenvatinib)",
            "Inlyta (axitinib)",
            "Votrient (pazopanib)",
            "Torisel (temsirolimus)",
            "Afinitor (everolimus)",
            "Opdivo (nivolumab)",
            "Keytruda (pembrolizumab)",
            "Yervoy (ipilimumab)",
            "Fotivda (tivozanib)",
            "Sutent (sunitinib)",
            "Nexavar (sorafenib)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Lenvatinib (Lenvima)",
                "Sorafenib (Nexavar)",
                "Bevacizumab (Avastin)",
                "Temsirolimus (Torisel)",
                "Everolimus (Afinitor)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Ipilimumab (Yervoy)",
                "Tivozanib (Fotivda)",
                "Lenvima (lenvatinib)",
                "Inlyta (axitinib)",
                "Votrient (pazopanib)",
                "Torisel (temsirolimus)",
                "Afinitor (everolimus)",
                "Opdivo (nivolumab)",
                "Keytruda (pembrolizumab)",
                "Yervoy (ipilimumab)",
                "Fotivda (tivozanib)",
                "Sutent (sunitinib)",
                "Nexavar (sorafenib)"
            ],
            "mismatches": [],
            "true_referents": [
                "Afinitor (everolimus)",
                "Axitinib (Inlyta)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Fotivda (tivozanib)",
                "Inlyta (axitinib)",
                "Ipilimumab (Yervoy)",
                "Keytruda (pembrolizumab)",
                "Lenvatinib (Lenvima)",
                "Lenvima (lenvatinib)",
                "Nexavar (sorafenib)",
                "Nivolumab (Opdivo)",
                "Opdivo (nivolumab)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Sutent (sunitinib)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Torisel (temsirolimus)",
                "Votrient (pazopanib)",
                "Yervoy (ipilimumab)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sorafenib (Nexavar)",
            "Axitinib",
            "Sunitinib (Sutent)",
            "Pazopanib",
            "Tivozanib",
            "Avelumab",
            "Durvalumab",
            "Atezolizumab",
            "Nivolumab",
            "Pembrolizumab",
            "Ipilimumab",
            "Bevacizumab",
            "Cabozantinib",
            "Lenvatinib",
            "Everolimus",
            "Temsirolimus",
            "Ruxolitinib",
            "Baricitinib",
            "Crizotinib",
            "Cabazitaxel",
            "Docetaxel",
            "Paclitaxel",
            "Abiraterone",
            "Enzalutamide"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sorafenib (Nexavar)",
                "Axitinib",
                "Sunitinib (Sutent)",
                "Pazopanib",
                "Tivozanib",
                "Avelumab",
                "Durvalumab",
                "Atezolizumab",
                "Nivolumab",
                "Pembrolizumab",
                "Ipilimumab",
                "Bevacizumab",
                "Cabozantinib",
                "Lenvatinib",
                "Everolimus",
                "Temsirolimus",
                "Ruxolitinib",
                "Baricitinib",
                "Crizotinib",
                "Cabazitaxel",
                "Docetaxel",
                "Paclitaxel",
                "Abiraterone",
                "Enzalutamide"
            ],
            "mismatches": [],
            "true_referents": [
                "Abiraterone",
                "Atezolizumab",
                "Avelumab",
                "Axitinib",
                "Baricitinib",
                "Bevacizumab",
                "Cabazitaxel",
                "Cabozantinib",
                "Crizotinib",
                "Docetaxel",
                "Durvalumab",
                "Enzalutamide",
                "Everolimus",
                "Ipilimumab",
                "Lenvatinib",
                "Nivolumab",
                "Paclitaxel",
                "Pazopanib",
                "Pembrolizumab",
                "Ruxolitinib",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus",
                "Tivozanib"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Axitinib (AG-013736)",
            "Cabozantinib (XL184)",
            "Nintedanib (BIBF 1120)",
            "Pazopanib (GW-786034)",
            "Sorafenib (BAY 43-9006)",
            "Sunitinib (SU-011248)",
            "Tivozanib (K-8794)",
            "Avelumab (MSB-0010718C)",
            "Bevacizumab (Avastin)",
            "Lenvatinib (E-3810)",
            "Nivolumab (BMS-936558)",
            "Pembrolizumab (MK-3475)",
            "Sorafenib (BAY 43-9006)",
            "Temsirolimus (CCI-779)",
            "Everolimus (RAD-001)",
            "Ixabepilone (BMS-247550)",
            "Lapatinib (GW-572016)",
            "Regorafenib (BAY 73-4502)",
            "Sunitinib (SU-011248)",
            "Temsirolimus (CCI-779)",
            "Tivozanib (K-8794)",
            "Cobimetinib (G-019244)",
            "Lenvatinib (E-3810)",
            "Nivolumab (BMS-936558)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Axitinib (AG-013736)",
                "Cabozantinib (XL184)",
                "Nintedanib (BIBF 1120)",
                "Pazopanib (GW-786034)",
                "Sorafenib (BAY 43-9006)",
                "Sunitinib (SU-011248)",
                "Tivozanib (K-8794)",
                "Avelumab (MSB-0010718C)",
                "Bevacizumab (Avastin)",
                "Lenvatinib (E-3810)",
                "Nivolumab (BMS-936558)",
                "Pembrolizumab (MK-3475)",
                "Temsirolimus (CCI-779)",
                "Everolimus (RAD-001)",
                "Ixabepilone (BMS-247550)",
                "Lapatinib (GW-572016)",
                "Regorafenib (BAY 73-4502)",
                "Cobimetinib (G-019244)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (MSB-0010718C)",
                "Axitinib (AG-013736)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (XL184)",
                "Cobimetinib (G-019244)",
                "Everolimus (RAD-001)",
                "Ixabepilone (BMS-247550)",
                "Lapatinib (GW-572016)",
                "Lenvatinib (E-3810)",
                "Nintedanib (BIBF 1120)",
                "Nivolumab (BMS-936558)",
                "Pazopanib (GW-786034)",
                "Pembrolizumab (MK-3475)",
                "Regorafenib (BAY 73-4502)",
                "Sorafenib (BAY 43-9006)",
                "Sunitinib (SU-011248)",
                "Temsirolimus (CCI-779)",
                "Tivozanib (K-8794)"
            ],
            "TP": 18,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": "error when calling model 'amazon.titan-text-express-v1': empty response",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    }
]