[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Aspirin (ASA)",
            "Ibuprofen",
            "Naproxen",
            "Diclofenac",
            "Ketorolac",
            "Celecoxib",
            "Indomethacin",
            "Meloxicam",
            "Piroxicam",
            "Sulindac",
            "Tenoxicam",
            "Nimesulide",
            "Tolfenamic acid",
            "Flurbiprofen",
            "Oxaprozin",
            "Etodolac",
            "Nabumetone",
            "Bromfenac",
            "Etoricoxib",
            "Ketoprofen",
            "Diflunisal",
            "Parecoxib",
            "Tepoxalin"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Ibuprofen",
                "Naproxen",
                "Diclofenac",
                "Ketorolac",
                "Celecoxib",
                "Indomethacin",
                "Meloxicam",
                "Piroxicam",
                "Sulindac",
                "Tenoxicam",
                "Nimesulide",
                "Tolfenamic acid",
                "Flurbiprofen",
                "Oxaprozin",
                "Etodolac",
                "Nabumetone",
                "Bromfenac",
                "Etoricoxib",
                "Ketoprofen",
                "Diflunisal",
                "Parecoxib",
                "Tepoxalin"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Bromfenac",
                "Celecoxib",
                "Diclofenac",
                "Diflunisal",
                "Etodolac",
                "Etoricoxib",
                "Flurbiprofen",
                "Ibuprofen",
                "Indomethacin",
                "Ketoprofen",
                "Ketorolac",
                "Meloxicam",
                "Nabumetone",
                "Naproxen",
                "Nimesulide",
                "Oxaprozin",
                "Parecoxib",
                "Piroxicam",
                "Sulindac",
                "Tenoxicam",
                "Tepoxalin",
                "Tolfenamic acid"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (Paracetamol)",
            "Ibuprofen",
            "Naproxen",
            "Aspirin (Acetylsalicylic Acid)",
            "Diclofenac",
            "Ketoprofen",
            "Indomethacin",
            "Nabumetone",
            "Celecoxib",
            "Mefenamic Acid",
            "Piroxicam",
            "Loratadine",
            "Chlorpheniramine",
            "Dipyrone (Metamizole)",
            "Phenazone (Antipyrine)",
            "Salicylamide",
            "Flurbiprofen",
            "Tenoxicam",
            "Ketorolac",
            "Meloxicam",
            "Tolfenamic Acid",
            "Tilidine",
            "Oxaprozin",
            "Meclofenamate"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (Paracetamol)",
                "Ibuprofen",
                "Naproxen",
                "Aspirin (Acetylsalicylic Acid)",
                "Diclofenac",
                "Ketoprofen",
                "Indomethacin",
                "Nabumetone",
                "Celecoxib",
                "Mefenamic Acid",
                "Piroxicam",
                "Loratadine",
                "Chlorpheniramine",
                "Dipyrone (Metamizole)",
                "Phenazone (Antipyrine)",
                "Salicylamide",
                "Flurbiprofen",
                "Tenoxicam",
                "Ketorolac",
                "Meloxicam",
                "Tolfenamic Acid",
                "Tilidine",
                "Oxaprozin",
                "Meclofenamate"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (Paracetamol)",
                "Aspirin (Acetylsalicylic Acid)",
                "Celecoxib",
                "Chlorpheniramine",
                "Diclofenac",
                "Dipyrone (Metamizole)",
                "Flurbiprofen",
                "Ibuprofen",
                "Indomethacin",
                "Ketoprofen",
                "Ketorolac",
                "Loratadine",
                "Meclofenamate",
                "Mefenamic Acid",
                "Meloxicam",
                "Nabumetone",
                "Naproxen",
                "Oxaprozin",
                "Phenazone (Antipyrine)",
                "Piroxicam",
                "Salicylamide",
                "Tenoxicam",
                "Tilidine",
                "Tolfenamic Acid"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Ibuprofen",
            "Aspirin (ASA)",
            "Naproxen",
            "Ketoprofen",
            "Diclofenac",
            "Mefenamic acid",
            "Indomethacin",
            "Piroxicam",
            "Flurbiprofen",
            "Oxaprozin",
            "Sulindac",
            "Tolmetin",
            "Fenoprofen",
            "Nabumetone",
            "Meloxicam",
            "Etodolac",
            "Celecoxib",
            "Rofecoxib",
            "Valdecoxib",
            "Lumiracoxib",
            "Parecoxib",
            "Choline salicylate",
            "Sodium salicylate"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Ibuprofen",
                "Aspirin (ASA)",
                "Naproxen",
                "Ketoprofen",
                "Diclofenac",
                "Mefenamic acid",
                "Indomethacin",
                "Piroxicam",
                "Flurbiprofen",
                "Oxaprozin",
                "Sulindac",
                "Tolmetin",
                "Fenoprofen",
                "Nabumetone",
                "Meloxicam",
                "Etodolac",
                "Celecoxib",
                "Rofecoxib",
                "Valdecoxib",
                "Lumiracoxib",
                "Parecoxib",
                "Choline salicylate",
                "Sodium salicylate"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Celecoxib",
                "Choline salicylate",
                "Diclofenac",
                "Etodolac",
                "Fenoprofen",
                "Flurbiprofen",
                "Ibuprofen",
                "Indomethacin",
                "Ketoprofen",
                "Lumiracoxib",
                "Mefenamic acid",
                "Meloxicam",
                "Nabumetone",
                "Naproxen",
                "Oxaprozin",
                "Parecoxib",
                "Piroxicam",
                "Rofecoxib",
                "Sodium salicylate",
                "Sulindac",
                "Tolmetin",
                "Valdecoxib"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Aspirin (ASA)",
            "Ibuprofen (IBU)",
            "Naproxen (NAP)",
            "Acetaminophen (APAP)",
            "Paracetamol (PAR)",
            "Diclofenac (DIC)",
            "Ketoprofen (KET)",
            "Flurbiprofen (FLB)",
            "Indomethacin (IND)",
            "Meloxicam (MEL)",
            "Celecoxib (CXB)",
            "Piroxicam (PIX)",
            "Nimesulide (NIM)",
            "Lysine Aspirin (L-ASA)",
            "Diflunisal (DFL)",
            "Etodolac (ETO)",
            "Tolmetin (TLM)",
            "Fenoprofen (FNP)",
            "Mefenamic Acid (MFA)",
            "Meclofenamate Sodium (MCN)",
            "Proglumetacin (PRG)",
            "Phenylbutazone (PBZ)",
            "Propyphenazone (PRP)",
            "Aminopyrine (AMP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Aspirin (ASA)",
                "Ibuprofen (IBU)",
                "Naproxen (NAP)",
                "Acetaminophen (APAP)",
                "Paracetamol (PAR)",
                "Diclofenac (DIC)",
                "Ketoprofen (KET)",
                "Flurbiprofen (FLB)",
                "Indomethacin (IND)",
                "Meloxicam (MEL)",
                "Celecoxib (CXB)",
                "Piroxicam (PIX)",
                "Nimesulide (NIM)",
                "Lysine Aspirin (L-ASA)",
                "Diflunisal (DFL)",
                "Etodolac (ETO)",
                "Tolmetin (TLM)",
                "Fenoprofen (FNP)",
                "Mefenamic Acid (MFA)",
                "Meclofenamate Sodium (MCN)",
                "Proglumetacin (PRG)",
                "Phenylbutazone (PBZ)",
                "Propyphenazone (PRP)",
                "Aminopyrine (AMP)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aminopyrine (AMP)",
                "Aspirin (ASA)",
                "Celecoxib (CXB)",
                "Diclofenac (DIC)",
                "Diflunisal (DFL)",
                "Etodolac (ETO)",
                "Fenoprofen (FNP)",
                "Flurbiprofen (FLB)",
                "Ibuprofen (IBU)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Lysine Aspirin (L-ASA)",
                "Meclofenamate Sodium (MCN)",
                "Mefenamic Acid (MFA)",
                "Meloxicam (MEL)",
                "Naproxen (NAP)",
                "Nimesulide (NIM)",
                "Paracetamol (PAR)",
                "Phenylbutazone (PBZ)",
                "Piroxicam (PIX)",
                "Proglumetacin (PRG)",
                "Propyphenazone (PRP)",
                "Tolmetin (TLM)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Ibuprofen (IBU)",
            "Aspirin (ASA)",
            "Naproxen (NAP)",
            "Diclofenac (DIC)",
            "Indomethacin (IND)",
            "Ketoprofen (KET)",
            "Piroxicam (PIR)",
            "Meloxicam (MEL)",
            "Celecoxib (CEL)",
            "Etodolac (ETO)",
            "Nimesulide (NIM)",
            "Metamizole (MET)",
            "Phenylbutazone (PHB)",
            "Mefenamic Acid (MEF)",
            "Sulindac (SUL)",
            "Tolmetin (TOL)",
            "Flurbiprofen (FLU)",
            "Oxaprozin (OXA)",
            "Ketorolac (KETR)",
            "Diflunisal (DIF)",
            "Fenoprofen (FEN)",
            "Choline Magnesium Trisalicylate (CMT)",
            "Salsalate (SAL)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Ibuprofen (IBU)",
                "Aspirin (ASA)",
                "Naproxen (NAP)",
                "Diclofenac (DIC)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Piroxicam (PIR)",
                "Meloxicam (MEL)",
                "Celecoxib (CEL)",
                "Etodolac (ETO)",
                "Nimesulide (NIM)",
                "Metamizole (MET)",
                "Phenylbutazone (PHB)",
                "Mefenamic Acid (MEF)",
                "Sulindac (SUL)",
                "Tolmetin (TOL)",
                "Flurbiprofen (FLU)",
                "Oxaprozin (OXA)",
                "Ketorolac (KETR)",
                "Diflunisal (DIF)",
                "Fenoprofen (FEN)",
                "Choline Magnesium Trisalicylate (CMT)",
                "Salsalate (SAL)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Celecoxib (CEL)",
                "Choline Magnesium Trisalicylate (CMT)",
                "Diclofenac (DIC)",
                "Diflunisal (DIF)",
                "Etodolac (ETO)",
                "Fenoprofen (FEN)",
                "Flurbiprofen (FLU)",
                "Ibuprofen (IBU)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Ketorolac (KETR)",
                "Mefenamic Acid (MEF)",
                "Meloxicam (MEL)",
                "Metamizole (MET)",
                "Naproxen (NAP)",
                "Nimesulide (NIM)",
                "Oxaprozin (OXA)",
                "Phenylbutazone (PHB)",
                "Piroxicam (PIR)",
                "Salsalate (SAL)",
                "Sulindac (SUL)",
                "Tolmetin (TOL)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Ibuprofen (IBU)",
            "Aspirin (ASA)",
            "Naproxen (NAP)",
            "Diclofenac (DIC)",
            "Indomethacin (IND)",
            "Ketoprofen (KET)",
            "Meloxicam (MEL)",
            "Paracetamol (PAR)",
            "Flurbiprofen (FLU)",
            "Piroxicam (PIR)",
            "Salsalate (SAL)",
            "Celecoxib (CELE)",
            "Rofecoxib (ROF)",
            "Etodolac (ETO)",
            "Aminophenol (AMIN)",
            "Phenazone (PHEN)",
            "Metamizole (MTA)",
            "Choline magnesium trisalicylate (CMT)",
            "Acetylsalicylic acid (ASA)",
            "Salicylic acid (SAL)",
            "Dexamethasone (DEX)",
            "Prednisone (PRED)",
            "Bromfenac (BRO)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Ibuprofen (IBU)",
                "Aspirin (ASA)",
                "Naproxen (NAP)",
                "Diclofenac (DIC)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Meloxicam (MEL)",
                "Paracetamol (PAR)",
                "Flurbiprofen (FLU)",
                "Piroxicam (PIR)",
                "Salsalate (SAL)",
                "Celecoxib (CELE)",
                "Rofecoxib (ROF)",
                "Etodolac (ETO)",
                "Aminophenol (AMIN)",
                "Phenazone (PHEN)",
                "Metamizole (MTA)",
                "Choline magnesium trisalicylate (CMT)",
                "Acetylsalicylic acid (ASA)",
                "Salicylic acid (SAL)",
                "Dexamethasone (DEX)",
                "Prednisone (PRED)",
                "Bromfenac (BRO)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Acetylsalicylic acid (ASA)",
                "Aminophenol (AMIN)",
                "Aspirin (ASA)",
                "Bromfenac (BRO)",
                "Celecoxib (CELE)",
                "Choline magnesium trisalicylate (CMT)",
                "Dexamethasone (DEX)",
                "Diclofenac (DIC)",
                "Etodolac (ETO)",
                "Flurbiprofen (FLU)",
                "Ibuprofen (IBU)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Meloxicam (MEL)",
                "Metamizole (MTA)",
                "Naproxen (NAP)",
                "Paracetamol (PAR)",
                "Phenazone (PHEN)",
                "Piroxicam (PIR)",
                "Prednisone (PRED)",
                "Rofecoxib (ROF)",
                "Salicylic acid (SAL)",
                "Salsalate (SAL)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Aspirin (ASA)",
            "Acetaminophen (APAP)",
            "Ibuprofen (IBU)",
            "Naproxen (NAP)",
            "Paracetamol (PARA)",
            "Dipyrone (DIP)",
            "Metamizole (MET)",
            "Phenazone (PHEN)",
            "Indomethacin (INDO)",
            "Ketoprofen (KETO)",
            "Diclofenac (DIC)",
            "Piroxicam (PIRO)",
            "Mefenamic Acid (MEF)",
            "Nimesulide (NIM)",
            "Propyphenazone (PRO)",
            "Choline Magnesium Trisalicylate (CMT)",
            "Salsalate (SAL)",
            "Sulindac (SUL)",
            "Etodolac (ETO)",
            "Ketorolac (KET)",
            "Nabumetone (NAB)",
            "Celecoxib (CEL)",
            "Rofecoxib (ROF)",
            "Valdecoxib (VAL)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Aspirin (ASA)",
                "Acetaminophen (APAP)",
                "Ibuprofen (IBU)",
                "Naproxen (NAP)",
                "Paracetamol (PARA)",
                "Dipyrone (DIP)",
                "Metamizole (MET)",
                "Phenazone (PHEN)",
                "Indomethacin (INDO)",
                "Ketoprofen (KETO)",
                "Diclofenac (DIC)",
                "Piroxicam (PIRO)",
                "Mefenamic Acid (MEF)",
                "Nimesulide (NIM)",
                "Propyphenazone (PRO)",
                "Choline Magnesium Trisalicylate (CMT)",
                "Salsalate (SAL)",
                "Sulindac (SUL)",
                "Etodolac (ETO)",
                "Ketorolac (KET)",
                "Nabumetone (NAB)",
                "Celecoxib (CEL)",
                "Rofecoxib (ROF)",
                "Valdecoxib (VAL)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Celecoxib (CEL)",
                "Choline Magnesium Trisalicylate (CMT)",
                "Diclofenac (DIC)",
                "Dipyrone (DIP)",
                "Etodolac (ETO)",
                "Ibuprofen (IBU)",
                "Indomethacin (INDO)",
                "Ketoprofen (KETO)",
                "Ketorolac (KET)",
                "Mefenamic Acid (MEF)",
                "Metamizole (MET)",
                "Nabumetone (NAB)",
                "Naproxen (NAP)",
                "Nimesulide (NIM)",
                "Paracetamol (PARA)",
                "Phenazone (PHEN)",
                "Piroxicam (PIRO)",
                "Propyphenazone (PRO)",
                "Rofecoxib (ROF)",
                "Salsalate (SAL)",
                "Sulindac (SUL)",
                "Valdecoxib (VAL)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (paracetamol)",
            "Ibuprofen",
            "Aspirin (acetylsalicylic acid)",
            "Naproxen",
            "Diclofenac",
            "Indomethacin",
            "Celecoxib",
            "Meloxicam",
            "Piroxicam",
            "Ketoprofen",
            "Etodolac",
            "Dipyrone",
            "Phenylbutazone",
            "Nimesulide",
            "Lornoxicam",
            "Mefenamic acid",
            "Tolfenamic acid",
            "Fenoprofen",
            "Oxaprozin",
            "Flurbiprofen",
            "Tenoxicam",
            "Nabumetone",
            "Tolmetin",
            "Sulindac"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (paracetamol)",
                "Ibuprofen",
                "Aspirin (acetylsalicylic acid)",
                "Naproxen",
                "Diclofenac",
                "Indomethacin",
                "Celecoxib",
                "Meloxicam",
                "Piroxicam",
                "Ketoprofen",
                "Etodolac",
                "Dipyrone",
                "Phenylbutazone",
                "Nimesulide",
                "Lornoxicam",
                "Mefenamic acid",
                "Tolfenamic acid",
                "Fenoprofen",
                "Oxaprozin",
                "Flurbiprofen",
                "Tenoxicam",
                "Nabumetone",
                "Tolmetin",
                "Sulindac"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (paracetamol)",
                "Aspirin (acetylsalicylic acid)",
                "Celecoxib",
                "Diclofenac",
                "Dipyrone",
                "Etodolac",
                "Fenoprofen",
                "Flurbiprofen",
                "Ibuprofen",
                "Indomethacin",
                "Ketoprofen",
                "Lornoxicam",
                "Mefenamic acid",
                "Meloxicam",
                "Nabumetone",
                "Naproxen",
                "Nimesulide",
                "Oxaprozin",
                "Phenylbutazone",
                "Piroxicam",
                "Sulindac",
                "Tenoxicam",
                "Tolfenamic acid",
                "Tolmetin"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (Paracetamol)",
            "Ibuprofen",
            "Aspirin (Acetylsalicylic acid)",
            "Naproxen",
            "Diclofenac",
            "Indomethacin",
            "Ketorolac",
            "Celecoxib",
            "Meloxicam",
            "Piroxicam",
            "Sulindac",
            "Flurbiprofen",
            "Etodolac",
            "Mefenamic acid",
            "Nabumetone",
            "Meclofenamic acid",
            "Fenoprofen",
            "Oxaprozin",
            "Tolmetin",
            "Salsalate",
            "Diflunisal",
            "Dexibuprofen",
            "Ketoprofen",
            "Naproxen sodium"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (Paracetamol)",
                "Ibuprofen",
                "Aspirin (Acetylsalicylic acid)",
                "Naproxen",
                "Diclofenac",
                "Indomethacin",
                "Ketorolac",
                "Celecoxib",
                "Meloxicam",
                "Piroxicam",
                "Sulindac",
                "Flurbiprofen",
                "Etodolac",
                "Mefenamic acid",
                "Nabumetone",
                "Meclofenamic acid",
                "Fenoprofen",
                "Oxaprozin",
                "Tolmetin",
                "Salsalate",
                "Diflunisal",
                "Dexibuprofen",
                "Ketoprofen",
                "Naproxen sodium"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (Paracetamol)",
                "Aspirin (Acetylsalicylic acid)",
                "Celecoxib",
                "Dexibuprofen",
                "Diclofenac",
                "Diflunisal",
                "Etodolac",
                "Fenoprofen",
                "Flurbiprofen",
                "Ibuprofen",
                "Indomethacin",
                "Ketoprofen",
                "Ketorolac",
                "Meclofenamic acid",
                "Mefenamic acid",
                "Meloxicam",
                "Nabumetone",
                "Naproxen",
                "Naproxen sodium",
                "Oxaprozin",
                "Piroxicam",
                "Salsalate",
                "Sulindac",
                "Tolmetin"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Ibuprofen (IBU)",
            "Aspirin (ASA)",
            "Naproxen (NAP)",
            "Diclofenac (DCF)",
            "Ketoprofen (KTP)",
            "Mefenamic acid (MFA)",
            "Nimesulide (NMS)",
            "Metamizole (MTZ)",
            "Celecoxib (CLX)",
            "Indomethacin (IND)",
            "Piroxicam (PRX)",
            "Meloxicam (MLX)",
            "Etoricoxib (ETC)",
            "Parecoxib (PCX)",
            "Flurbiprofen (FBP)",
            "Ketorolac (KTR)",
            "Dexketoprofen (DKP)",
            "Lornoxicam (LNX)",
            "Phenylbutazone (PBZ)",
            "Propyphenazone (PPZ)",
            "Nefopam (NFP)",
            "Dipyrone (DPR)",
            "Aminopyrine (AMP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Ibuprofen (IBU)",
                "Aspirin (ASA)",
                "Naproxen (NAP)",
                "Diclofenac (DCF)",
                "Ketoprofen (KTP)",
                "Mefenamic acid (MFA)",
                "Nimesulide (NMS)",
                "Metamizole (MTZ)",
                "Celecoxib (CLX)",
                "Indomethacin (IND)",
                "Piroxicam (PRX)",
                "Meloxicam (MLX)",
                "Etoricoxib (ETC)",
                "Parecoxib (PCX)",
                "Flurbiprofen (FBP)",
                "Ketorolac (KTR)",
                "Dexketoprofen (DKP)",
                "Lornoxicam (LNX)",
                "Phenylbutazone (PBZ)",
                "Propyphenazone (PPZ)",
                "Nefopam (NFP)",
                "Dipyrone (DPR)",
                "Aminopyrine (AMP)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aminopyrine (AMP)",
                "Aspirin (ASA)",
                "Celecoxib (CLX)",
                "Dexketoprofen (DKP)",
                "Diclofenac (DCF)",
                "Dipyrone (DPR)",
                "Etoricoxib (ETC)",
                "Flurbiprofen (FBP)",
                "Ibuprofen (IBU)",
                "Indomethacin (IND)",
                "Ketoprofen (KTP)",
                "Ketorolac (KTR)",
                "Lornoxicam (LNX)",
                "Mefenamic acid (MFA)",
                "Meloxicam (MLX)",
                "Metamizole (MTZ)",
                "Naproxen (NAP)",
                "Nefopam (NFP)",
                "Nimesulide (NMS)",
                "Parecoxib (PCX)",
                "Phenylbutazone (PBZ)",
                "Piroxicam (PRX)",
                "Propyphenazone (PPZ)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Aspirin (ASA)",
            "Ibuprofen",
            "Naproxen",
            "Diclofenac",
            "Ketoprofen",
            "Indomethacin",
            "Mefenamic acid",
            "Celecoxib",
            "Etoricoxib",
            "Nimesulide",
            "Dipyrone (Metamizole)",
            "Phenacetin",
            "Antipyrine (Phenazone)",
            "Aminopyrine",
            "Niflumic acid",
            "Tolfenamic acid",
            "Sulindac",
            "Piroxicam",
            "Meloxicam",
            "Tenoxicam",
            "Lornoxicam",
            "Ketorolac",
            "Flurbiprofen"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Ibuprofen",
                "Naproxen",
                "Diclofenac",
                "Ketoprofen",
                "Indomethacin",
                "Mefenamic acid",
                "Celecoxib",
                "Etoricoxib",
                "Nimesulide",
                "Dipyrone (Metamizole)",
                "Phenacetin",
                "Antipyrine (Phenazone)",
                "Aminopyrine",
                "Niflumic acid",
                "Tolfenamic acid",
                "Sulindac",
                "Piroxicam",
                "Meloxicam",
                "Tenoxicam",
                "Lornoxicam",
                "Ketorolac",
                "Flurbiprofen"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aminopyrine",
                "Antipyrine (Phenazone)",
                "Aspirin (ASA)",
                "Celecoxib",
                "Diclofenac",
                "Dipyrone (Metamizole)",
                "Etoricoxib",
                "Flurbiprofen",
                "Ibuprofen",
                "Indomethacin",
                "Ketoprofen",
                "Ketorolac",
                "Lornoxicam",
                "Mefenamic acid",
                "Meloxicam",
                "Naproxen",
                "Niflumic acid",
                "Nimesulide",
                "Phenacetin",
                "Piroxicam",
                "Sulindac",
                "Tenoxicam",
                "Tolfenamic acid"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Ibuprofen (IBU)",
            "Aspirin (ASA)",
            "Naproxen (NAP)",
            "Ketoprofen (KET)",
            "Celecoxib (CEL)",
            "Diclofenac (DIC)",
            "Indomethacin (IND)",
            "Meloxicam (MEL)",
            "Piroxicam (PIR)",
            "Ketorolac (KET)",
            "Mefenamic Acid (MEF)",
            "Flurbiprofen (FLU)",
            "Phenazopyridine (PHE)",
            "Metamizole (MET)",
            "Paracetamol (PAR)",
            "Nimesulide (NIM)",
            "Etoricoxib (ETO)",
            "Lumiracoxib (LUM)",
            "Rofecoxib (ROF)",
            "Valdecoxib (VAL)",
            "Parecoxib (PAR)",
            "Deracoxib (DER)",
            "Tepoxalin (TEP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Ibuprofen (IBU)",
                "Aspirin (ASA)",
                "Naproxen (NAP)",
                "Ketoprofen (KET)",
                "Celecoxib (CEL)",
                "Diclofenac (DIC)",
                "Indomethacin (IND)",
                "Meloxicam (MEL)",
                "Piroxicam (PIR)",
                "Ketorolac (KET)",
                "Mefenamic Acid (MEF)",
                "Flurbiprofen (FLU)",
                "Phenazopyridine (PHE)",
                "Metamizole (MET)",
                "Paracetamol (PAR)",
                "Nimesulide (NIM)",
                "Etoricoxib (ETO)",
                "Lumiracoxib (LUM)",
                "Rofecoxib (ROF)",
                "Valdecoxib (VAL)",
                "Parecoxib (PAR)",
                "Deracoxib (DER)",
                "Tepoxalin (TEP)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Celecoxib (CEL)",
                "Deracoxib (DER)",
                "Diclofenac (DIC)",
                "Etoricoxib (ETO)",
                "Flurbiprofen (FLU)",
                "Ibuprofen (IBU)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Ketorolac (KET)",
                "Lumiracoxib (LUM)",
                "Mefenamic Acid (MEF)",
                "Meloxicam (MEL)",
                "Metamizole (MET)",
                "Naproxen (NAP)",
                "Nimesulide (NIM)",
                "Paracetamol (PAR)",
                "Parecoxib (PAR)",
                "Phenazopyridine (PHE)",
                "Piroxicam (PIR)",
                "Rofecoxib (ROF)",
                "Tepoxalin (TEP)",
                "Valdecoxib (VAL)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Aspirin (ASA)",
            "Ibuprofen (IBU)",
            "Naproxen (NAP)",
            "Diclofenac (DIC)",
            "Indomethacin (IND)",
            "Celecoxib (CEL)",
            "Meloxicam (MEL)",
            "Piroxicam (PIR)",
            "Ketoprofen (KET)",
            "Flurbiprofen (FLU)",
            "Fenoprofen (FEN)",
            "Sulindac (SUL)",
            "Etodolac (ETO)",
            "Ketorolac (KER)",
            "Mefenamic Acid (MEF)",
            "Nimesulide (NIM)",
            "Paracetamol (PAR)",
            "Phenazopyridine (PHA)",
            "Propyphenazone (PRO)",
            "Salsalate (SAL)",
            "Tolmetin (TOL)",
            "Valdecoxib (VAL)",
            "Xefocam (XEF)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Ibuprofen (IBU)",
                "Naproxen (NAP)",
                "Diclofenac (DIC)",
                "Indomethacin (IND)",
                "Celecoxib (CEL)",
                "Meloxicam (MEL)",
                "Piroxicam (PIR)",
                "Ketoprofen (KET)",
                "Flurbiprofen (FLU)",
                "Fenoprofen (FEN)",
                "Sulindac (SUL)",
                "Etodolac (ETO)",
                "Ketorolac (KER)",
                "Mefenamic Acid (MEF)",
                "Nimesulide (NIM)",
                "Paracetamol (PAR)",
                "Phenazopyridine (PHA)",
                "Propyphenazone (PRO)",
                "Salsalate (SAL)",
                "Tolmetin (TOL)",
                "Valdecoxib (VAL)",
                "Xefocam (XEF)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aspirin (ASA)",
                "Celecoxib (CEL)",
                "Diclofenac (DIC)",
                "Etodolac (ETO)",
                "Fenoprofen (FEN)",
                "Flurbiprofen (FLU)",
                "Ibuprofen (IBU)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Ketorolac (KER)",
                "Mefenamic Acid (MEF)",
                "Meloxicam (MEL)",
                "Naproxen (NAP)",
                "Nimesulide (NIM)",
                "Paracetamol (PAR)",
                "Phenazopyridine (PHA)",
                "Piroxicam (PIR)",
                "Propyphenazone (PRO)",
                "Salsalate (SAL)",
                "Sulindac (SUL)",
                "Tolmetin (TOL)",
                "Valdecoxib (VAL)",
                "Xefocam (XEF)"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Aspirin",
            "Ibuprofen",
            "Ketoprofen",
            "Naproxen",
            "Celecoxib",
            "Meloxicam",
            "Diclofenac",
            "Flurbiprofen",
            "Indomethacin",
            "Piroxicam",
            "Sulindac",
            "Nimesulide",
            "Tolmetin",
            "Oxaprozin",
            "Etodolac",
            "Ketorolac",
            "Mefenamic acid",
            "Flufenamic acid",
            "Meclofenamic acid",
            "Piroxicam",
            "Tenoxicam",
            "Clobuzarit",
            "Paracetamol",
            "Fenoprofen",
            "Nabumetone"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Aspirin",
                "Ibuprofen",
                "Ketoprofen",
                "Naproxen",
                "Celecoxib",
                "Meloxicam",
                "Diclofenac",
                "Flurbiprofen",
                "Indomethacin",
                "Piroxicam",
                "Sulindac",
                "Nimesulide",
                "Tolmetin",
                "Oxaprozin",
                "Etodolac",
                "Ketorolac",
                "Mefenamic acid",
                "Flufenamic acid",
                "Meclofenamic acid",
                "Tenoxicam",
                "Clobuzarit",
                "Paracetamol"
            ],
            "mismatches": [
                "Fenoprofen",
                "Nabumetone"
            ],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Aspirin",
                "Celecoxib",
                "Clobuzarit",
                "Diclofenac",
                "Etodolac",
                "Flufenamic acid",
                "Flurbiprofen",
                "Ibuprofen",
                "Indomethacin",
                "Ketoprofen",
                "Ketorolac",
                "Meclofenamic acid",
                "Mefenamic acid",
                "Meloxicam",
                "Naproxen",
                "Nimesulide",
                "Oxaprozin",
                "Paracetamol",
                "Piroxicam",
                "Sulindac",
                "Tenoxicam",
                "Tolmetin"
            ],
            "TP": 23,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": [
            "Acetaminophen (APAP)",
            "Acetylsalicylic acid (ASA)",
            "Ibuprofen (IBU)",
            "Aspirin",
            "Naproxen (NAP)",
            "Diclofenac (DIC)",
            "Celecoxib (CEL)",
            "Rofecoxib (ROF)",
            "Meloxicam (MEL)",
            "Mefenamic acid (MEF)",
            "Flurbiprofen (FLU)",
            "Ketoprofen (KET)",
            "Oxaprozin (OX)",
            "Piroxicam (PIR)",
            "Sulindac (SUL)",
            "Tenoxicam (TEN)",
            "Nabumetone (NAB)",
            "Tolmetin (TOL)",
            "Indomethacin (IND)",
            "Salsalate (SAL)",
            "Diflunisal (DFL)",
            "Etodolac (ETO)",
            "Fenoprofen (FEN)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Acetaminophen (APAP)",
                "Acetylsalicylic acid (ASA)",
                "Ibuprofen (IBU)",
                "Aspirin",
                "Naproxen (NAP)",
                "Diclofenac (DIC)",
                "Celecoxib (CEL)",
                "Rofecoxib (ROF)",
                "Meloxicam (MEL)",
                "Mefenamic acid (MEF)",
                "Flurbiprofen (FLU)",
                "Ketoprofen (KET)",
                "Oxaprozin (OX)",
                "Piroxicam (PIR)",
                "Sulindac (SUL)",
                "Tenoxicam (TEN)",
                "Nabumetone (NAB)",
                "Tolmetin (TOL)",
                "Indomethacin (IND)",
                "Salsalate (SAL)",
                "Diflunisal (DFL)",
                "Etodolac (ETO)",
                "Fenoprofen (FEN)"
            ],
            "mismatches": [],
            "true_referents": [
                "Acetaminophen (APAP)",
                "Acetylsalicylic acid (ASA)",
                "Aspirin",
                "Celecoxib (CEL)",
                "Diclofenac (DIC)",
                "Diflunisal (DFL)",
                "Etodolac (ETO)",
                "Fenoprofen (FEN)",
                "Flurbiprofen (FLU)",
                "Ibuprofen (IBU)",
                "Indomethacin (IND)",
                "Ketoprofen (KET)",
                "Mefenamic acid (MEF)",
                "Meloxicam (MEL)",
                "Nabumetone (NAB)",
                "Naproxen (NAP)",
                "Oxaprozin (OX)",
                "Piroxicam (PIR)",
                "Rofecoxib (ROF)",
                "Salsalate (SAL)",
                "Sulindac (SUL)",
                "Tenoxicam (TEN)",
                "Tolmetin (TOL)"
            ],
            "TP": 23,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "antipyretic agent",
        "domain": "medicine",
        "response": "[\n  {\n    \"name\": \"Acetaminophen\",\n    \"abbreviated_identifier\": \"APAP\"\n  },\n  {\n    \"name\": \"Ibuprofen\",\n    \"abbreviated_identifier\": \"IBU\"\n  },\n  {\n    \"name\": \"Aspirin\",\n    \"abbreviated_identifier\": \"ASA\"\n  },\n  {\n    \"name\": \"Naproxen\",\n    \"abbreviated_identifier\": \"NAP\"\n  },\n  {\n    \"name\": \"Phenacetin\",\n    \"abbreviated_identifier\": \"PHE\"\n  },\n  {\n    \"name\": \"Propyphenazone\",\n    \"abbreviated_identifier\": \"PPZ\"\n  },\n  {\n    \"name\": \"Salicylamide\",\n    \"abbreviated_identifier\": \"SAL\"\n  },\n  {\n    \"name\": \"Chlorpheniramine\",\n  },\n  {\n    \"name\": \"Diphenhydramine\",\n  },\n  {\n    \"name\": \"Hydroxyzine\",\n  },\n  {\n    \"name\": \"Promethazine\",\n  },\n  {\n    \"name\": \"Tripelennamine\",\n  },\n  {\n    \"name\": \"Caffeine\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  },\n  {\n    \"name\": \"Antihistamines\",\n  }\n]",
        "scorer": "gpt-4o",
        "judgement": {
            "TP": 0,
            "FP": 0
        }
    }
]