[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SUTENT)",
            "Pazopanib (VOTRIENT)",
            "Bevacizumab (AVASTIN)",
            "Axitinib (INVEGA)",
            "Cabozantinib (CABOMETYX)",
            "Ipilimumab (YERVOY)",
            "Nivolumab (OPDIVO)",
            "Atezolizumab (TECENTRIQ)",
            "Pembrolizumab (KEYTRUDA)",
            "Lenvatinib (LENVIMA)",
            "Everolimus (AFINITOR)",
            "Temsirolimus (TORISEL)",
            "Sorafenib (NEXAVAR)",
            "Olaparib (LYNPARZA)",
            "Enfortumab vedotin (PADCEV)",
            "Sacituzumab govitecan (TRODELVY)",
            "Durvalumab (IMFINZI)",
            "Radium-223 dichloride (XOFIGO)",
            "Tivozanib (AVAPRO)",
            "Tecentriq (ATEZO)",
            "Cabozantinib (CABOZANTINIB)",
            "Nintedanib (VARGATEF)",
            "Cemiplimab (LIBTAYI)",
            "Caboxyzumab (CABOXYZUMAB)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SUTENT)",
                "Pazopanib (VOTRIENT)",
                "Bevacizumab (AVASTIN)",
                "Axitinib (INVEGA)",
                "Cabozantinib (CABOMETYX)",
                "Ipilimumab (YERVOY)",
                "Nivolumab (OPDIVO)",
                "Atezolizumab (TECENTRIQ)",
                "Pembrolizumab (KEYTRUDA)",
                "Lenvatinib (LENVIMA)",
                "Everolimus (AFINITOR)",
                "Temsirolimus (TORISEL)",
                "Sorafenib (NEXAVAR)",
                "Olaparib (LYNPARZA)",
                "Enfortumab vedotin (PADCEV)",
                "Sacituzumab govitecan (TRODELVY)",
                "Durvalumab (IMFINZI)",
                "Radium-223 dichloride (XOFIGO)",
                "Nintedanib (VARGATEF)",
                "Cemiplimab (LIBTAYI)",
                "Cabozantinib (CABOZANTINIB)"
            ],
            "mismatches": [
                "Tivozanib (AVAPRO)",
                "Tecentriq (ATEZO)",
                "Caboxyzumab (CABOXYZUMAB)"
            ],
            "true_referents": [
                "Atezolizumab (TECENTRIQ)",
                "Axitinib (INVEGA)",
                "Bevacizumab (AVASTIN)",
                "Caboxyzumab (CABOXYZUMAB)",
                "Cabozantinib (CABOMETYX)",
                "Cabozantinib (CABOZANTINIB)",
                "Cemiplimab (LIBTAYI)",
                "Durvalumab (IMFINZI)",
                "Enfortumab vedotin (PADCEV)",
                "Everolimus (AFINITOR)",
                "Ipilimumab (YERVOY)",
                "Lenvatinib (LENVIMA)",
                "Nintedanib (VARGATEF)",
                "Nivolumab (OPDIVO)",
                "Olaparib (LYNPARZA)",
                "Pazopanib (VOTRIENT)",
                "Pembrolizumab (KEYTRUDA)",
                "Radium-223 dichloride (XOFIGO)",
                "Sacituzumab govitecan (TRODELVY)",
                "Sorafenib (NEXAVAR)",
                "Sunitinib (SUTENT)",
                "Tecentriq (ATEZO)",
                "Temsirolimus (TORISEL)",
                "Tivozanib (AVAPRO)"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SU011248)",
            "Sorafenib (BAY 43-9006)",
            "Pazopanib (GW786034)",
            "Axitinib (AG-013736)",
            "Cabozantinib (XL184)",
            "Lenvatinib (E7080)",
            "Everolimus (RAD001)",
            "Temsirolimus (CCI-779)",
            "Necitumumab (IMC-C225)",
            "Pembrolizumab (MK-3475)",
            "Nivolumab (BMS-936558)",
            "Avelumab (MSB0010718C)",
            "Durvalumab (MEDI4736)",
            "Ipatasertib (GDC-0068)",
            "Larotrectinib (Vitrakvi)",
            "Binimetinib (MEK162)",
            "Tivozanib (AV-951)",
            "Enfortumab vedotin (EV-201)",
            "Cabozantinib in combination with Nivolumab",
            "Avelumab in combination with Axitinib",
            "Pembrolizumab in combination with Lenvatinib",
            "Nivolumab in combination with Ipilimumab",
            "Cabozantinib in combination with Nivolumab and Pembrolizumab",
            "Lenvatinib in combination with Pembrolizumab"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SU011248)",
                "Sorafenib (BAY 43-9006)",
                "Pazopanib (GW786034)",
                "Axitinib (AG-013736)",
                "Cabozantinib (XL184)",
                "Lenvatinib (E7080)",
                "Everolimus (RAD001)",
                "Temsirolimus (CCI-779)",
                "Necitumumab (IMC-C225)",
                "Pembrolizumab (MK-3475)",
                "Nivolumab (BMS-936558)",
                "Avelumab (MSB0010718C)",
                "Durvalumab (MEDI4736)",
                "Ipatasertib (GDC-0068)",
                "Larotrectinib (Vitrakvi)",
                "Binimetinib (MEK162)",
                "Tivozanib (AV-951)",
                "Enfortumab vedotin (EV-201)",
                "Cabozantinib in combination with Nivolumab",
                "Avelumab in combination with Axitinib",
                "Pembrolizumab in combination with Lenvatinib",
                "Nivolumab in combination with Ipilimumab",
                "Cabozantinib in combination with Nivolumab and Pembrolizumab",
                "Lenvatinib in combination with Pembrolizumab"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (MSB0010718C)",
                "Avelumab in combination with Axitinib",
                "Axitinib (AG-013736)",
                "Binimetinib (MEK162)",
                "Cabozantinib (XL184)",
                "Cabozantinib in combination with Nivolumab",
                "Cabozantinib in combination with Nivolumab and Pembrolizumab",
                "Durvalumab (MEDI4736)",
                "Enfortumab vedotin (EV-201)",
                "Everolimus (RAD001)",
                "Ipatasertib (GDC-0068)",
                "Larotrectinib (Vitrakvi)",
                "Lenvatinib (E7080)",
                "Lenvatinib in combination with Pembrolizumab",
                "Necitumumab (IMC-C225)",
                "Nivolumab (BMS-936558)",
                "Nivolumab in combination with Ipilimumab",
                "Pazopanib (GW786034)",
                "Pembrolizumab (MK-3475)",
                "Pembrolizumab in combination with Lenvatinib",
                "Sorafenib (BAY 43-9006)",
                "Sunitinib (SU011248)",
                "Temsirolimus (CCI-779)",
                "Tivozanib (AV-951)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Sorafenib (Nexavar)",
            "Temsirolimus (Torisel)",
            "Everolimus (Afinitor)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Pembrolizumab (Keytruda)",
            "Atezolizumab (Tecentriq)",
            "Lenalidomide (Revlimid)",
            "Bevacizumab (Avastin)",
            "Interferon Alfa-2b (Intron A)",
            "Interleukin-2 (Proleukin)",
            "Crizotinib (Xalkori)",
            "Lenvatinib (Lenvima)",
            "Tivozanib (Fotivda)",
            "Belzutifan (Welireg)",
            "Cemiplimab (Libtayo)",
            "Durvalumab (Imfinzi)",
            "Avelumab (Bavencio)",
            "Carboplatin",
            "Gemcitabine"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Sorafenib (Nexavar)",
                "Temsirolimus (Torisel)",
                "Everolimus (Afinitor)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Pembrolizumab (Keytruda)",
                "Atezolizumab (Tecentriq)",
                "Lenalidomide (Revlimid)",
                "Bevacizumab (Avastin)",
                "Interferon Alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Crizotinib (Xalkori)",
                "Lenvatinib (Lenvima)",
                "Tivozanib (Fotivda)",
                "Belzutifan (Welireg)",
                "Cemiplimab (Libtayo)",
                "Durvalumab (Imfinzi)",
                "Avelumab (Bavencio)",
                "Carboplatin",
                "Gemcitabine"
            ],
            "mismatches": [],
            "true_referents": [
                "Atezolizumab (Tecentriq)",
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Belzutifan (Welireg)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Carboplatin",
                "Cemiplimab (Libtayo)",
                "Crizotinib (Xalkori)",
                "Durvalumab (Imfinzi)",
                "Everolimus (Afinitor)",
                "Gemcitabine",
                "Interferon Alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Ipilimumab (Yervoy)",
                "Lenalidomide (Revlimid)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Sorafenib (Nexavar)",
            "Temozolomide (Temodar)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Bevacizumab (Avastin)",
            "Cabozantinib (Cabometyx)",
            "Axitinib (Inlyta)",
            "Regorafenib (Stivarga)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Ipilimumab (Yervoy)",
            "Belzutifan (Welireg)",
            "Lenvatinib (Lenvima)",
            "Ramucirumab (Cyramza)",
            "Sacituzumab govitecan-hziy (Trodelvy)",
            "Tisotumab vedotin-tftv (Tivdak)",
            "Futibatinib (Lytgobi)",
            "Infigratinib (Truseltiq)",
            "Sukatinib (Alpelisib)",
            "Mizoribine (MZR)",
            "Interleukin-2 (IL-2)",
            "Interferon-alpha (IFN-\u03b1)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Sorafenib (Nexavar)",
                "Temozolomide (Temodar)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Axitinib (Inlyta)",
                "Regorafenib (Stivarga)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Ipilimumab (Yervoy)",
                "Belzutifan (Welireg)",
                "Lenvatinib (Lenvima)",
                "Ramucirumab (Cyramza)",
                "Sacituzumab govitecan-hziy (Trodelvy)",
                "Tisotumab vedotin-tftv (Tivdak)",
                "Futibatinib (Lytgobi)",
                "Infigratinib (Truseltiq)",
                "Mizoribine (MZR)",
                "Interleukin-2 (IL-2)",
                "Interferon-alpha (IFN-\u03b1)"
            ],
            "mismatches": [
                "Sukatinib (Alpelisib)"
            ],
            "true_referents": [
                "Axitinib (Inlyta)",
                "Belzutifan (Welireg)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Futibatinib (Lytgobi)",
                "Infigratinib (Truseltiq)",
                "Interferon-alpha (IFN-\u03b1)",
                "Interleukin-2 (IL-2)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Mizoribine (MZR)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sacituzumab govitecan-hziy (Trodelvy)",
                "Sorafenib (Nexavar)",
                "Sukatinib (Alpelisib)",
                "Sunitinib (Sutent)",
                "Temozolomide (Temodar)",
                "Temsirolimus (Torisel)",
                "Tisotumab vedotin-tftv (Tivdak)"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Axitinib (Inlyta)",
            "Sorafenib (Nexavar)",
            "Cabozantinib (Cabometyx)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Avelumab (Bavencio)",
            "Ipilimumab (Yervoy)",
            "Lenvatinib (Lenvima)",
            "Bevacizumab (Avastin)",
            "Tivozanib (Fotivda)",
            "Atezolizumab (Tecentriq)",
            "Belzutifan (Welireg)",
            "Axitinib with Pembrolizumab",
            "Cabozantinib with Nivolumab",
            "Lenvatinib with Everolimus",
            "Avelumab with Axitinib",
            "Cabozantinib with Ipilimumab",
            "Tivozanib with Pembrolizumab",
            "Pembrolizumab with Lenvatinib",
            "Nivolumab with Ipilimumab"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Axitinib (Inlyta)",
                "Sorafenib (Nexavar)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Avelumab (Bavencio)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Bevacizumab (Avastin)",
                "Tivozanib (Fotivda)",
                "Atezolizumab (Tecentriq)",
                "Belzutifan (Welireg)",
                "Axitinib with Pembrolizumab",
                "Cabozantinib with Nivolumab",
                "Lenvatinib with Everolimus",
                "Avelumab with Axitinib",
                "Cabozantinib with Ipilimumab",
                "Tivozanib with Pembrolizumab",
                "Pembrolizumab with Lenvatinib",
                "Nivolumab with Ipilimumab"
            ],
            "mismatches": [],
            "true_referents": [
                "Atezolizumab (Tecentriq)",
                "Avelumab (Bavencio)",
                "Avelumab with Axitinib",
                "Axitinib (Inlyta)",
                "Axitinib with Pembrolizumab",
                "Belzutifan (Welireg)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Cabozantinib with Ipilimumab",
                "Cabozantinib with Nivolumab",
                "Everolimus (Afinitor)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Lenvatinib with Everolimus",
                "Nivolumab (Opdivo)",
                "Nivolumab with Ipilimumab",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Pembrolizumab with Lenvatinib",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Tivozanib with Pembrolizumab"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SUTENT)",
            "Sorafenib (NEXAVAR)",
            "Pazopanib (VOTRIENT)",
            "Axitinib (INLYTA)",
            "Cabozantinib (COMETRIQ)",
            "Nivolumab (OPDIVO)",
            "Ipilimumab (YERVOY)",
            "Avelumab (BAVENCIO)",
            "Durvalumab (IMFINZI)",
            "Lenvatinib (LENVIMA)",
            "Everolimus (AFINITOR)",
            "Temsirolimus (TORISEL)",
            "Bevacizumab (AVASTIN)",
            "Tivozanib (TIVDAK)",
            "Ramucirumab (Cyramza)",
            "Dabrafenib (Tafinlar)",
            "Trametinib (Mekinist)",
            "Pembrolizumab (KEYTRUDA)",
            "Axitinib (INLYTA)",
            "Selpercatinib (Retevmo)",
            "Entrectinib (Rozlytrek)",
            "Neratinib (NERLYNX)",
            "Motesanib (Motesanib)",
            "Sunitinib (SUTENT)",
            "Cilengitide (Cilengitide)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SUTENT)",
                "Sorafenib (NEXAVAR)",
                "Pazopanib (VOTRIENT)",
                "Axitinib (INLYTA)",
                "Cabozantinib (COMETRIQ)",
                "Nivolumab (OPDIVO)",
                "Ipilimumab (YERVOY)",
                "Avelumab (BAVENCIO)",
                "Durvalumab (IMFINZI)",
                "Lenvatinib (LENVIMA)",
                "Everolimus (AFINITOR)",
                "Temsirolimus (TORISEL)",
                "Bevacizumab (AVASTIN)",
                "Tivozanib (TIVDAK)",
                "Ramucirumab (Cyramza)",
                "Dabrafenib (Tafinlar)",
                "Trametinib (Mekinist)",
                "Pembrolizumab (KEYTRUDA)",
                "Selpercatinib (Retevmo)",
                "Entrectinib (Rozlytrek)",
                "Neratinib (NERLYNX)",
                "Motesanib (Motesanib)"
            ],
            "mismatches": [
                "Cilengitide (Cilengitide)"
            ],
            "true_referents": [
                "Avelumab (BAVENCIO)",
                "Axitinib (INLYTA)",
                "Bevacizumab (AVASTIN)",
                "Cabozantinib (COMETRIQ)",
                "Dabrafenib (Tafinlar)",
                "Durvalumab (IMFINZI)",
                "Entrectinib (Rozlytrek)",
                "Everolimus (AFINITOR)",
                "Ipilimumab (YERVOY)",
                "Lenvatinib (LENVIMA)",
                "Motesanib (Motesanib)",
                "Neratinib (NERLYNX)",
                "Nivolumab (OPDIVO)",
                "Pazopanib (VOTRIENT)",
                "Pembrolizumab (KEYTRUDA)",
                "Ramucirumab (Cyramza)",
                "Selpercatinib (Retevmo)",
                "Sorafenib (NEXAVAR)",
                "Sunitinib (SUTENT)",
                "Temsirolimus (TORISEL)",
                "Tivozanib (TIVDAK)",
                "Trametinib (Mekinist)"
            ],
            "TP": 22,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sutent (Sunitinib)",
            "Afinitor (Everolimus)",
            "Nexavar (Sorafenib)",
            "Votrient (Pazopanib)",
            "Inlyta (Axitinib)",
            "Torisel (Temsirolimus)",
            "Avastin (Bevacizumab)",
            "Opdivo (Nivolumab)",
            "Keytruda (Pembrolizumab)",
            "Cabometyx (Cabozantinib)",
            "Lenvima (Lenvatinib)",
            "Bavencio (Avelumab)",
            "Proleukin (Aldesleukin)",
            "Yervoy (Ipilimumab)",
            "Iressa (Gefitinib)",
            "Tarceva (Erlotinib)",
            "Zaltrap (Aflibercept)",
            "Cyramza (Ramucirumab)",
            "Stivarga (Regorafenib)",
            "Tecentriq (Atezolizumab)",
            "Lonsurf (Trifluridine/Tipiracil)",
            "Erbitux (Cetuximab)",
            "Vectibix (Panitumumab)",
            "Imfinzi (Durvalumab)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sutent (Sunitinib)",
                "Afinitor (Everolimus)",
                "Nexavar (Sorafenib)",
                "Votrient (Pazopanib)",
                "Inlyta (Axitinib)",
                "Torisel (Temsirolimus)",
                "Avastin (Bevacizumab)",
                "Opdivo (Nivolumab)",
                "Keytruda (Pembrolizumab)",
                "Cabometyx (Cabozantinib)",
                "Lenvima (Lenvatinib)",
                "Bavencio (Avelumab)",
                "Proleukin (Aldesleukin)",
                "Yervoy (Ipilimumab)",
                "Iressa (Gefitinib)",
                "Tarceva (Erlotinib)",
                "Zaltrap (Aflibercept)",
                "Cyramza (Ramucirumab)",
                "Stivarga (Regorafenib)",
                "Tecentriq (Atezolizumab)",
                "Lonsurf (Trifluridine/Tipiracil)",
                "Erbitux (Cetuximab)",
                "Vectibix (Panitumumab)",
                "Imfinzi (Durvalumab)"
            ],
            "mismatches": [],
            "true_referents": [
                "Afinitor (Everolimus)",
                "Avastin (Bevacizumab)",
                "Bavencio (Avelumab)",
                "Cabometyx (Cabozantinib)",
                "Cyramza (Ramucirumab)",
                "Erbitux (Cetuximab)",
                "Imfinzi (Durvalumab)",
                "Inlyta (Axitinib)",
                "Iressa (Gefitinib)",
                "Keytruda (Pembrolizumab)",
                "Lenvima (Lenvatinib)",
                "Lonsurf (Trifluridine/Tipiracil)",
                "Nexavar (Sorafenib)",
                "Opdivo (Nivolumab)",
                "Proleukin (Aldesleukin)",
                "Stivarga (Regorafenib)",
                "Sutent (Sunitinib)",
                "Tarceva (Erlotinib)",
                "Tecentriq (Atezolizumab)",
                "Torisel (Temsirolimus)",
                "Vectibix (Panitumumab)",
                "Votrient (Pazopanib)",
                "Yervoy (Ipilimumab)",
                "Zaltrap (Aflibercept)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Cabozantinib (Cabometyx)",
            "Axitinib (Inlyta)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Pembrolizumab (Keytruda)",
            "Avelumab (Bavencio)",
            "Bevacizumab (Avastin)",
            "Sorafenib (Nexavar)",
            "Lenvatinib (Lenvima)",
            "Pazopanib (Votrient)",
            "Axitinib (Inlyta)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Pembrolizumab (Keytruda)",
            "Avelumab (Bavencio)",
            "Bevacizumab (Avastin)",
            "Sorafenib (Nexavar)",
            "Lenvatinib (Lenvima)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Cabozantinib (Cabometyx)",
                "Axitinib (Inlyta)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Pembrolizumab (Keytruda)",
                "Avelumab (Bavencio)",
                "Bevacizumab (Avastin)",
                "Sorafenib (Nexavar)",
                "Lenvatinib (Lenvima)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)"
            ],
            "TP": 13,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Sorafenib (Nexavar)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Lenvatinib (Lenvima)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Avelumab (Bavencio)",
            "Atezolizumab (Tecentriq)",
            "Bevacizumab (Avastin)",
            "Nivolumab + Ipilimumab (Yervoy)",
            "Pembrolizumab + Axitinib",
            "Avelumab + Axitinib",
            "Tivozanib (Fotivda)",
            "Belzutifan (Welireg)",
            "Ramucirumab (Cyramza)",
            "Regorafenib (Stivarga)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Sorafenib (Nexavar)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Lenvatinib (Lenvima)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Avelumab (Bavencio)",
                "Atezolizumab (Tecentriq)",
                "Bevacizumab (Avastin)",
                "Nivolumab + Ipilimumab (Yervoy)",
                "Pembrolizumab + Axitinib",
                "Avelumab + Axitinib",
                "Tivozanib (Fotivda)",
                "Belzutifan (Welireg)",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)"
            ],
            "mismatches": [],
            "true_referents": [
                "Atezolizumab (Tecentriq)",
                "Avelumab (Bavencio)",
                "Avelumab + Axitinib",
                "Axitinib (Inlyta)",
                "Belzutifan (Welireg)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Everolimus (Afinitor)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Nivolumab + Ipilimumab (Yervoy)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Pembrolizumab + Axitinib",
                "Ramucirumab (Cyramza)",
                "Regorafenib (Stivarga)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)"
            ],
            "TP": 20,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Sorafenib (Nexavar)",
            "Axitinib (Inlyta)",
            "Cabozantinib (Cabometyx)",
            "Lenvatinib (Lenvima)",
            "Everolimus (Afinitor)",
            "Temsirolimus (Torisel)",
            "Nivolumab (Opdivo)",
            "Pembrolizumab (Keytruda)",
            "Ipilimumab (Yervoy)",
            "Bevacizumab (Avastin)",
            "Interferon alfa-2b (Intron A)",
            "Interleukin-2 (Proleukin)",
            "Tivozanib (Fotivda)",
            "Belzutifan (Welireg)",
            "Avelumab (Bavencio)",
            "Aldesleukin (Proleukin)",
            "Gilotrif (Afatinib)",
            "Levantinib + Pembrolizumab (Lenvima + Keytruda combination)",
            "Cabozantinib + Nivolumab (Cabometyx + Opdivo combination)",
            "Lenvatinib + Everolimus (Lenvima + Afinitor combination)",
            "Axitinib + Pembrolizumab (Inlyta + Keytruda combination)",
            "Axitinib + Avelumab (Inlyta + Bavencio combination)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Sorafenib (Nexavar)",
                "Axitinib (Inlyta)",
                "Cabozantinib (Cabometyx)",
                "Lenvatinib (Lenvima)",
                "Everolimus (Afinitor)",
                "Temsirolimus (Torisel)",
                "Nivolumab (Opdivo)",
                "Pembrolizumab (Keytruda)",
                "Ipilimumab (Yervoy)",
                "Bevacizumab (Avastin)",
                "Interferon alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Tivozanib (Fotivda)",
                "Belzutifan (Welireg)",
                "Avelumab (Bavencio)",
                "Aldesleukin (Proleukin)",
                "Levantinib + Pembrolizumab (Lenvima + Keytruda combination)",
                "Cabozantinib + Nivolumab (Cabometyx + Opdivo combination)",
                "Lenvatinib + Everolimus (Lenvima + Afinitor combination)",
                "Axitinib + Pembrolizumab (Inlyta + Keytruda combination)",
                "Axitinib + Avelumab (Inlyta + Bavencio combination)"
            ],
            "mismatches": [
                "Gilotrif (Afatinib)"
            ],
            "true_referents": [
                "Aldesleukin (Proleukin)",
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Axitinib + Avelumab (Inlyta + Bavencio combination)",
                "Axitinib + Pembrolizumab (Inlyta + Keytruda combination)",
                "Belzutifan (Welireg)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Cabozantinib + Nivolumab (Cabometyx + Opdivo combination)",
                "Everolimus (Afinitor)",
                "Gilotrif (Afatinib)",
                "Interferon alfa-2b (Intron A)",
                "Interleukin-2 (Proleukin)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Lenvatinib + Everolimus (Lenvima + Afinitor combination)",
                "Levantinib + Pembrolizumab (Lenvima + Keytruda combination)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (Sutent)",
            "Pazopanib (Votrient)",
            "Axitinib (Inlyta)",
            "Sorafenib (Nexavar)",
            "Bevacizumab (Avastin)",
            "Temsirolimus (Torisel)",
            "Everolimus (Afinitor)",
            "Cabozantinib (Cabometyx)",
            "Lenvatinib (Lenvima)",
            "Nivolumab (Opdivo)",
            "Ipilimumab (Yervoy)",
            "Pembrolizumab (Keytruda)",
            "Avelumab (Bavencio)",
            "Tivozanib (Fotivda)",
            "Erlotinib (Tarceva)",
            "Interleukin-2 (Aldesleukin, Proleukin)",
            "Interferon alfa-2a (Roferon-A)",
            "Interferon alfa-2b (Intron A)",
            "Gemcitabine (Gemzar)",
            "Doxorubicin (Adriamycin)",
            "Vinblastine (Velban)",
            "Capecitabine (Xeloda)",
            "Fluorouracil (5-FU)",
            "Carboplatin (Paraplatin)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (Sutent)",
                "Pazopanib (Votrient)",
                "Axitinib (Inlyta)",
                "Sorafenib (Nexavar)",
                "Bevacizumab (Avastin)",
                "Temsirolimus (Torisel)",
                "Everolimus (Afinitor)",
                "Cabozantinib (Cabometyx)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Ipilimumab (Yervoy)",
                "Pembrolizumab (Keytruda)",
                "Avelumab (Bavencio)",
                "Tivozanib (Fotivda)",
                "Erlotinib (Tarceva)",
                "Interleukin-2 (Aldesleukin, Proleukin)",
                "Interferon alfa-2a (Roferon-A)",
                "Interferon alfa-2b (Intron A)",
                "Gemcitabine (Gemzar)",
                "Doxorubicin (Adriamycin)",
                "Vinblastine (Velban)",
                "Capecitabine (Xeloda)",
                "Fluorouracil (5-FU)",
                "Carboplatin (Paraplatin)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (Bavencio)",
                "Axitinib (Inlyta)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cabometyx)",
                "Capecitabine (Xeloda)",
                "Carboplatin (Paraplatin)",
                "Doxorubicin (Adriamycin)",
                "Erlotinib (Tarceva)",
                "Everolimus (Afinitor)",
                "Fluorouracil (5-FU)",
                "Gemcitabine (Gemzar)",
                "Interferon alfa-2a (Roferon-A)",
                "Interferon alfa-2b (Intron A)",
                "Interleukin-2 (Aldesleukin, Proleukin)",
                "Ipilimumab (Yervoy)",
                "Lenvatinib (Lenvima)",
                "Nivolumab (Opdivo)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Vinblastine (Velban)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Sunitinib (SUN)",
            "Pazopanib (PAZ)",
            "Cabozantinib (CAB)",
            "Axitinib (AXI)",
            "Sorafenib (SOR)",
            "Lenvatinib (LEN)",
            "Everolimus (EVE)",
            "Temsirolimus (TEM)",
            "Nivolumab (NIV)",
            "Ipilimumab (IPI)",
            "Pembrolizumab (PEM)",
            "Avelumab (AVE)",
            "Bevacizumab (BEV)",
            "Interleukin-2 (IL-2)",
            "Interferon-alpha (IFN-\u03b1)",
            "Aldesleukin (ALD)",
            "Vinblastine (VIN)",
            "Gemcitabine (GEM)",
            "Capecitabine (CAP)",
            "Sunitinib + Bevacizumab (SUN + BEV)",
            "Lenvatinib + Everolimus (LEN + EVE)",
            "Cabozantinib + Nivolumab (CAB + NIV)",
            "Avelumab + Axitinib (AVE + AXI)",
            "Pembrolizumab + Axitinib (PEM + AXI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Sunitinib (SUN)",
                "Pazopanib (PAZ)",
                "Cabozantinib (CAB)",
                "Axitinib (AXI)",
                "Sorafenib (SOR)",
                "Lenvatinib (LEN)",
                "Everolimus (EVE)",
                "Temsirolimus (TEM)",
                "Nivolumab (NIV)",
                "Ipilimumab (IPI)",
                "Pembrolizumab (PEM)",
                "Avelumab (AVE)",
                "Bevacizumab (BEV)",
                "Interleukin-2 (IL-2)",
                "Interferon-alpha (IFN-\u03b1)",
                "Aldesleukin (ALD)",
                "Vinblastine (VIN)",
                "Gemcitabine (GEM)",
                "Capecitabine (CAP)",
                "Sunitinib + Bevacizumab (SUN + BEV)",
                "Lenvatinib + Everolimus (LEN + EVE)",
                "Cabozantinib + Nivolumab (CAB + NIV)",
                "Avelumab + Axitinib (AVE + AXI)",
                "Pembrolizumab + Axitinib (PEM + AXI)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aldesleukin (ALD)",
                "Avelumab (AVE)",
                "Avelumab + Axitinib (AVE + AXI)",
                "Axitinib (AXI)",
                "Bevacizumab (BEV)",
                "Cabozantinib (CAB)",
                "Cabozantinib + Nivolumab (CAB + NIV)",
                "Capecitabine (CAP)",
                "Everolimus (EVE)",
                "Gemcitabine (GEM)",
                "Interferon-alpha (IFN-\u03b1)",
                "Interleukin-2 (IL-2)",
                "Ipilimumab (IPI)",
                "Lenvatinib (LEN)",
                "Lenvatinib + Everolimus (LEN + EVE)",
                "Nivolumab (NIV)",
                "Pazopanib (PAZ)",
                "Pembrolizumab (PEM)",
                "Pembrolizumab + Axitinib (PEM + AXI)",
                "Sorafenib (SOR)",
                "Sunitinib (SUN)",
                "Sunitinib + Bevacizumab (SUN + BEV)",
                "Temsirolimus (TEM)",
                "Vinblastine (VIN)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Axitinib (AXI)",
            "Cabozantinib (CBZ)",
            "Everolimus (EVE)",
            "Lenvatinib (LEN)",
            "Pazopanib (PAZ)",
            "Sorafenib (SOR)",
            "Sunitinib (SUN)",
            "Temsirolimus (TEM)",
            "Tivozanib (TIV)",
            "Bevacizumab (BEV)",
            "Nivolumab (NIV)",
            "Pembrolizumab (PEM)",
            "Ipilimumab (IPI)",
            "Avelumab (AVE)",
            "Cabozantinib (CBZ) and Nivolumab (NIV)",
            "Cabozantinib (CBZ) and Ipilimumab (IPI)",
            "Lenvatinib (LEN) and Pembrolizumab (PEM)",
            "Axitinib (AXI) and Pembrolizumab (PEM)",
            "Nivolumab (NIV) and Ipilimumab (IPI)",
            "Tivozanib (TIV) and Nivolumab (NIV)",
            "Cabozantinib (CBZ) and Nivolumab (NIV) and Ipilimumab (IPI)",
            "Lenvatinib (LEN) and Pembrolizumab (PEM) and Cabozantinib (CBZ)",
            "Axitinib (AXI) and Pembrolizumab (PEM) and Nivolumab (NIV)",
            "Tivozanib (TIV) and Nivolumab (NIV) and Ipilimumab (IPI)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Axitinib (AXI)",
                "Cabozantinib (CBZ)",
                "Everolimus (EVE)",
                "Lenvatinib (LEN)",
                "Pazopanib (PAZ)",
                "Sorafenib (SOR)",
                "Sunitinib (SUN)",
                "Temsirolimus (TEM)",
                "Tivozanib (TIV)",
                "Bevacizumab (BEV)",
                "Nivolumab (NIV)",
                "Pembrolizumab (PEM)",
                "Ipilimumab (IPI)",
                "Avelumab (AVE)",
                "Cabozantinib (CBZ) and Nivolumab (NIV)",
                "Cabozantinib (CBZ) and Ipilimumab (IPI)",
                "Lenvatinib (LEN) and Pembrolizumab (PEM)",
                "Axitinib (AXI) and Pembrolizumab (PEM)",
                "Nivolumab (NIV) and Ipilimumab (IPI)",
                "Tivozanib (TIV) and Nivolumab (NIV)",
                "Cabozantinib (CBZ) and Nivolumab (NIV) and Ipilimumab (IPI)",
                "Lenvatinib (LEN) and Pembrolizumab (PEM) and Cabozantinib (CBZ)",
                "Axitinib (AXI) and Pembrolizumab (PEM) and Nivolumab (NIV)",
                "Tivozanib (TIV) and Nivolumab (NIV) and Ipilimumab (IPI)"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab (AVE)",
                "Axitinib (AXI)",
                "Axitinib (AXI) and Pembrolizumab (PEM)",
                "Axitinib (AXI) and Pembrolizumab (PEM) and Nivolumab (NIV)",
                "Bevacizumab (BEV)",
                "Cabozantinib (CBZ)",
                "Cabozantinib (CBZ) and Ipilimumab (IPI)",
                "Cabozantinib (CBZ) and Nivolumab (NIV)",
                "Cabozantinib (CBZ) and Nivolumab (NIV) and Ipilimumab (IPI)",
                "Everolimus (EVE)",
                "Ipilimumab (IPI)",
                "Lenvatinib (LEN)",
                "Lenvatinib (LEN) and Pembrolizumab (PEM)",
                "Lenvatinib (LEN) and Pembrolizumab (PEM) and Cabozantinib (CBZ)",
                "Nivolumab (NIV)",
                "Nivolumab (NIV) and Ipilimumab (IPI)",
                "Pazopanib (PAZ)",
                "Pembrolizumab (PEM)",
                "Sorafenib (SOR)",
                "Sunitinib (SUN)",
                "Temsirolimus (TEM)",
                "Tivozanib (TIV)",
                "Tivozanib (TIV) and Nivolumab (NIV)",
                "Tivozanib (TIV) and Nivolumab (NIV) and Ipilimumab (IPI)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Axitinib (AG-013736) (Inlyta)",
            "Bevacizumab (Avastin)",
            "Cabozantinib (Cometriq)",
            "Cediranib (AZD2171)",
            "Crizotinib (Xalkori)",
            "Everolimus (Afinitor)",
            "Lenvatinib (Lenvima)",
            "Naproxen",
            "Nilotinib (Tasigna)",
            "Pazopanib (Votrient)",
            "Pembrolizumab (Keytruda)",
            "Ponatinib (Iclusig)",
            "Sorafenib (Nexavar)",
            "Sunitinib (Sutent)",
            "Temsirolimus (Torisel)",
            "Tivozanib (Fotivda)",
            "Vandetanib (Caprelsa)",
            "Vemurafenib (Zelboraf)",
            "Aflibercept (Eylea)",
            "Atrasentan (Sprycel)",
            "Bortezomib (Velcade)",
            "Carfilzomib (Kyprolis)",
            "Dinutuximab (Unituxin)",
            "Neratinib (Nerlynx)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Axitinib (AG-013736) (Inlyta)",
                "Bevacizumab (Avastin)",
                "Cabozantinib (Cometriq)",
                "Cediranib (AZD2171)",
                "Crizotinib (Xalkori)",
                "Everolimus (Afinitor)",
                "Lenvatinib (Lenvima)",
                "Naproxen",
                "Nilotinib (Tasigna)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Ponatinib (Iclusig)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Vandetanib (Caprelsa)",
                "Vemurafenib (Zelboraf)",
                "Aflibercept (Eylea)",
                "Atrasentan (Sprycel)",
                "Bortezomib (Velcade)",
                "Carfilzomib (Kyprolis)",
                "Dinutuximab (Unituxin)",
                "Neratinib (Nerlynx)"
            ],
            "mismatches": [],
            "true_referents": [
                "Aflibercept (Eylea)",
                "Atrasentan (Sprycel)",
                "Axitinib (AG-013736) (Inlyta)",
                "Bevacizumab (Avastin)",
                "Bortezomib (Velcade)",
                "Cabozantinib (Cometriq)",
                "Carfilzomib (Kyprolis)",
                "Cediranib (AZD2171)",
                "Crizotinib (Xalkori)",
                "Dinutuximab (Unituxin)",
                "Everolimus (Afinitor)",
                "Lenvatinib (Lenvima)",
                "Naproxen",
                "Neratinib (Nerlynx)",
                "Nilotinib (Tasigna)",
                "Pazopanib (Votrient)",
                "Pembrolizumab (Keytruda)",
                "Ponatinib (Iclusig)",
                "Sorafenib (Nexavar)",
                "Sunitinib (Sutent)",
                "Temsirolimus (Torisel)",
                "Tivozanib (Fotivda)",
                "Vandetanib (Caprelsa)",
                "Vemurafenib (Zelboraf)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            "Axitinib (AG-013736)",
            "Avelumab",
            "Cabozantinib (XL184)",
            "Everolimus (RAD001)",
            "Bevacizumab (Avastin)",
            "Nivolumab (BMS-936558)",
            "Pazopanib (GW786034)",
            "Sorafenib (BAY 43-9006)",
            "Sunitinib (SU11248)",
            "Temsirolimus (CCI-779)",
            "Tivozanib (KRN-951)",
            "Lenvatinib (E7080)",
            "Bevacizumab + Erlotinib",
            "Bevacizumab + Interferon alfa",
            "Sunitinib + Erlotinib",
            "Axitinib + Pembrolizumab",
            "Nivolumab + Ipilimumab",
            "Cabozantinib + Nivolumab",
            "Pembrolizumab",
            "Ipilimumab (MDX-010)",
            "Interferon alfa-2a",
            "Interferon alfa-2b"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Axitinib (AG-013736)",
                "Avelumab",
                "Cabozantinib (XL184)",
                "Everolimus (RAD001)",
                "Bevacizumab (Avastin)",
                "Nivolumab (BMS-936558)",
                "Pazopanib (GW786034)",
                "Sorafenib (BAY 43-9006)",
                "Sunitinib (SU11248)",
                "Temsirolimus (CCI-779)",
                "Tivozanib (KRN-951)",
                "Lenvatinib (E7080)",
                "Bevacizumab + Erlotinib",
                "Bevacizumab + Interferon alfa",
                "Sunitinib + Erlotinib",
                "Axitinib + Pembrolizumab",
                "Nivolumab + Ipilimumab",
                "Cabozantinib + Nivolumab",
                "Pembrolizumab",
                "Ipilimumab (MDX-010)",
                "Interferon alfa-2a",
                "Interferon alfa-2b"
            ],
            "mismatches": [],
            "true_referents": [
                "Avelumab",
                "Axitinib (AG-013736)",
                "Axitinib + Pembrolizumab",
                "Bevacizumab (Avastin)",
                "Bevacizumab + Erlotinib",
                "Bevacizumab + Interferon alfa",
                "Cabozantinib (XL184)",
                "Cabozantinib + Nivolumab",
                "Everolimus (RAD001)",
                "Interferon alfa-2a",
                "Interferon alfa-2b",
                "Ipilimumab (MDX-010)",
                "Lenvatinib (E7080)",
                "Nivolumab (BMS-936558)",
                "Nivolumab + Ipilimumab",
                "Pazopanib (GW786034)",
                "Pembrolizumab",
                "Sorafenib (BAY 43-9006)",
                "Sunitinib (SU11248)",
                "Sunitinib + Erlotinib",
                "Temsirolimus (CCI-779)",
                "Tivozanib (KRN-951)"
            ],
            "TP": 22,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "approved drug for renal cancer",
        "domain": "medicine",
        "response": [
            {
                "referent": "Afinitor (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Disperz (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Oral Solution (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Disperz (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Oral Solution (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Disperz (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Oral Solution (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Disperz (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Oral Solution (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Disperz (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Oral Solution (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Afinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Disperz (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Oral Solution (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            },
            {
                "referent": "Affinitor Tablets (everolimus)",
                "identifier": "Everolimus"
            }
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "{\"referent\": \"Afinitor (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Afinitor Disperz (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Afinitor Oral Solution (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Afinitor Tablets (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Affinitor (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Affinitor Disperz (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Affinitor Oral Solution (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Affinitor Tablets (everolimus)\", \"identifier\": \"Everolimus\"}"
            ],
            "mismatches": [],
            "true_referents": [
                "{\"referent\": \"Affinitor (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Affinitor Disperz (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Affinitor Oral Solution (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Affinitor Tablets (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Afinitor (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Afinitor Disperz (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Afinitor Oral Solution (everolimus)\", \"identifier\": \"Everolimus\"}",
                "{\"referent\": \"Afinitor Tablets (everolimus)\", \"identifier\": \"Everolimus\"}"
            ],
            "TP": 8,
            "FP": 0,
            "FN": 0
        }
    }
]