[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Benzodiazepine (BZD)",
            "Barbiturate",
            "Diazepam (DZP)",
            "Lorazepam (LZP)",
            "Midazolam (MDZ)",
            "Zolpidem",
            "Zopiclone",
            "Chloral hydrate",
            "Alprazolam (Xanax)",
            "Temazepam",
            "Triazolam",
            "Lormetazepam",
            "Clonazepam (CLZ)",
            "Eszopiclone",
            "Flurazepam",
            "Nitrazepam",
            "Oxazepam",
            "Temazepam (RESTORIL)",
            "Bromazepam",
            "Lacosamide",
            "Gabapentin",
            "Doxylamine",
            "Melatonin",
            "Trazodone"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam (DZP)",
                "Midazolam (MDZ)",
                "Zolpidem",
                "Zopiclone",
                "Chloral hydrate",
                "Alprazolam (Xanax)",
                "Triazolam",
                "Lormetazepam",
                "Eszopiclone",
                "Flurazepam",
                "Nitrazepam",
                "Doxylamine",
                "Trazodone"
            ],
            "mismatches": [
                "Benzodiazepine (BZD)",
                "Barbiturate",
                "Lorazepam (LZP)",
                "Temazepam",
                "Clonazepam (CLZ)",
                "Oxazepam",
                "Temazepam (RESTORIL)",
                "Bromazepam",
                "Lacosamide",
                "Gabapentin",
                "Melatonin"
            ],
            "true_referents": [
                "(2R,3S,11bS)-benzquinamide",
                "(5R)-zopiclone",
                "(E)-chlorprothixene",
                "(Z)-chlorprothixene",
                "alprazolam",
                "benzquinamide",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "diazepam",
                "diphenhydramine",
                "doxylamine",
                "eszopiclone",
                "flunitrazepam",
                "flurazepam",
                "lactucopicrin",
                "lormetazepam",
                "midazolam",
                "nitrazepam",
                "nordazepam",
                "phenobarbital",
                "promethazine",
                "trazodone",
                "triazolam",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 13,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Diazepam (Valium)",
            "Lorazepam (Ativan)",
            "Midazolam (Versed)",
            "Zolpidem (Ambien)",
            "Chloral hydrate",
            "Phenobarbital",
            "Alprazolam (Xanax)",
            "Triazolam (Halcion)",
            "Lormetazepam (Euhypnos)",
            "Quazepam (Doral)",
            "Flurazepam (Dalmane)",
            "Estazolam (Prosom)",
            "Temazepam (Restoril)",
            "Ethanol (Ethyl alcohol)",
            "Benzodiazepines (general class)",
            "Barbiturates (general class)",
            "Propofol",
            "Etomidate",
            "Ketamine",
            "Methaqualone (Quaalude)",
            "Zaleplon (Sonata)",
            "Eszopiclone (Lunesta)",
            "Suvorexant (Belsomra)",
            "Dexmedetomidine"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam (Valium)",
                "Midazolam (Versed)",
                "Zolpidem (Ambien)",
                "Chloral hydrate",
                "Phenobarbital",
                "Alprazolam (Xanax)",
                "Triazolam (Halcion)",
                "Lormetazepam (Euhypnos)",
                "Flurazepam (Dalmane)",
                "Propofol",
                "Etomidate",
                "Methaqualone (Quaalude)",
                "Zaleplon (Sonata)",
                "Eszopiclone (Lunesta)",
                "Dexmedetomidine"
            ],
            "mismatches": [
                "Lorazepam (Ativan)",
                "Quazepam (Doral)",
                "Estazolam (Prosom)",
                "Temazepam (Restoril)",
                "Ethanol (Ethyl alcohol)",
                "Benzodiazepines (general class)",
                "Barbiturates (general class)",
                "Ketamine",
                "Suvorexant (Belsomra)"
            ],
            "true_referents": [
                "(2R,3S,11bS)-benzquinamide",
                "(E)-chlorprothixene",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "4-hydroxybutyric acid",
                "alprazolam",
                "benzquinamide",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "chlorzoxazone",
                "dexmedetomidine",
                "dexmedetomidine hydrochloride",
                "diazepam",
                "eszopiclone",
                "etomidate",
                "flunitrazepam",
                "flurazepam",
                "hydroxyethylflurazepam",
                "lormetazepam",
                "methaqualone",
                "midazolam",
                "nimetazepam",
                "nordazepam",
                "phenobarbital",
                "propofol",
                "remifentanil",
                "secobarbital",
                "thalidomide",
                "trazodone",
                "triazolam",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 15,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Alcohol (Ethanol)",
            "Benzodiazepines",
            "Diazepam (Valium)",
            "Lorazepam (Ativan)",
            "Clonazepam (Klonopin)",
            "Alprazolam (Xanax)",
            "Temazepam (Restoril)",
            "Zolpidem (Ambien)",
            "Zopiclone (Imovane)",
            "Eszopiclone (Lunesta)",
            "Ramelteon (Rozerem)",
            "Gabapentin (Neurontin)",
            "Pregabalin (Lyrica)",
            "Hydroxyzine (Atarax)",
            "Promethazine (Phenergan)",
            "Doxylamine (Unisom)",
            "Diphenhydramine (Benadryl)",
            "Chloral Hydrate",
            "Melatonin",
            "Barbiturates",
            "Phenobarbital (Luminal)",
            "Secobarbital (Seconal)",
            "Chlordiazepoxide (Librium)",
            "Buspirone (Buspar)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alprazolam (Xanax)",
                "Zolpidem (Ambien)",
                "Zopiclone (Imovane)",
                "Eszopiclone (Lunesta)",
                "Promethazine (Phenergan)",
                "Doxylamine (Unisom)",
                "Diphenhydramine (Benadryl)",
                "Chloral Hydrate",
                "Phenobarbital (Luminal)",
                "Secobarbital (Seconal)",
                "Chlordiazepoxide (Librium)",
                "Buspirone (Buspar)"
            ],
            "mismatches": [
                "Alcohol (Ethanol)",
                "Benzodiazepines",
                "Diazepam (Valium)",
                "Lorazepam (Ativan)",
                "Clonazepam (Klonopin)",
                "Temazepam (Restoril)",
                "Ramelteon (Rozerem)",
                "Gabapentin (Neurontin)",
                "Pregabalin (Lyrica)",
                "Hydroxyzine (Atarax)",
                "Melatonin",
                "Barbiturates"
            ],
            "true_referents": [
                "(5R)-zopiclone",
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(Z)-chlorprothixene",
                "4-hydroxybutyric acid",
                "alprazolam",
                "buspirone",
                "buspirone hydrochloride",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "diazepam",
                "diphenhydramine",
                "diphenhydramine hydrochloride",
                "diphenhydramine salicylate",
                "doxylamine",
                "eszopiclone",
                "flurazepam",
                "lormetazepam",
                "mianserin",
                "midazolam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "propiomazine",
                "propofol",
                "remifentanil",
                "secobarbital",
                "secobarbital sodium",
                "trazodone",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 12,
            "FP": 12,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Phenobarbital (PB)",
            "Diazepam (DZP)",
            "Lorazepam (LZP)",
            "Alprazolam (ALP)",
            "Temazepam (TMP)",
            "Zolpidem (ZOL)",
            "Eszopiclone (ESZ)",
            "Zaleplon (ZAL)",
            "Chloral Hydrate (CH)",
            "Pentobarbital (PB)",
            "Secobarbital (SEC)",
            "Amobarbital (AMB)",
            "Butabarbital (BB)",
            "Ethchlorvynol (ECV)",
            "Meprobamate (MP)",
            "Carbromal (CBM)",
            "Paraldehyde (PAL)",
            "Diphenhydramine (DPH)",
            "Hydroxyzine (HZY)",
            "Promethazine (PMZ)",
            "Melatonin (MEL)",
            "Buspirone (BSP)",
            "Gabapentin (GBP)",
            "Pregabalin (PRG)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Phenobarbital",
                "Diazepam",
                "Alprazolam",
                "Zolpidem",
                "Eszopiclone",
                "Zaleplon",
                "Chloral Hydrate",
                "Ethchlorvynol",
                "Paraldehyde",
                "Diphenhydramine",
                "Promethazine",
                "Buspirone"
            ],
            "mismatches": [
                "Lorazepam",
                "Temazepam",
                "Pentobarbital",
                "Secobarbital",
                "Amobarbital",
                "Butabarbital",
                "Meprobamate",
                "Carbromal",
                "Hydroxyzine",
                "Melatonin",
                "Gabapentin",
                "Pregabalin"
            ],
            "true_referents": [
                "(5R)-zopiclone",
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "4-hydroxybutyric acid",
                "aceprometazine",
                "alprazolam",
                "bromisoval",
                "buspirone",
                "buspirone hydrochloride",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "chlorzoxazone",
                "dexmedetomidine",
                "diazepam",
                "diphenhydramine",
                "diphenhydramine hydrochloride",
                "diphenhydramine salicylate",
                "doxylamine",
                "eszopiclone",
                "ethchlorvynol",
                "etorphine",
                "eucommiol",
                "flurazepam",
                "lormetazepam",
                "midazolam",
                "paraldehyde",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "propiomazine",
                "remifentanil",
                "secobarbital",
                "secobarbital sodium",
                "thalidomide",
                "trazodone",
                "triazolam",
                "valerenic acid",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 12,
            "FP": 12,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Diazepam (Valium)",
            "Lorazepam (Ativan)",
            "Alprazolam (Xanax)",
            "Clonazepam (Klonopin)",
            "Midazolam (Versed)",
            "Temazepam (Restoril)",
            "Zolpidem (Ambien)",
            "Eszopiclone (Lunesta)",
            "Zaleplon (Sonata)",
            "Phenobarbital",
            "Pentobarbital",
            "Secobarbital",
            "Chloral Hydrate",
            "Meprobamate",
            "Ramelteon (Rozerem)",
            "Triazolam (Halcion)",
            "Flurazepam (Dalmane)",
            "Quazepam (Doral)",
            "Amitriptyline",
            "Doxepin",
            "Trazodone",
            "Buspirone",
            "Hydroxyzine (Vistaril)",
            "Dexmedetomidine (Precedex)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam (Valium)",
                "Alprazolam (Xanax)",
                "Midazolam (Versed)",
                "Zolpidem (Ambien)",
                "Eszopiclone (Lunesta)",
                "Zaleplon (Sonata)",
                "Phenobarbital",
                "Secobarbital",
                "Chloral Hydrate",
                "Triazolam (Halcion)",
                "Flurazepam (Dalmane)",
                "Trazodone",
                "Buspirone",
                "Dexmedetomidine (Precedex)"
            ],
            "mismatches": [
                "Lorazepam (Ativan)",
                "Clonazepam (Klonopin)",
                "Temazepam (Restoril)",
                "Pentobarbital",
                "Meprobamate",
                "Ramelteon (Rozerem)",
                "Quazepam (Doral)",
                "Amitriptyline",
                "Doxepin",
                "Hydroxyzine (Vistaril)"
            ],
            "true_referents": [
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "alprazolam",
                "buspirone",
                "buspirone hydrochloride",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "dexmedetomidine",
                "dexmedetomidine hydrochloride",
                "diazepam",
                "doxylamine",
                "eszopiclone",
                "flunitrazepam",
                "flurazepam",
                "lormetazepam",
                "mianserin",
                "midazolam",
                "nordazepam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "remifentanil",
                "secobarbital",
                "secobarbital sodium",
                "thalidomide",
                "trazodone",
                "triazolam",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 14,
            "FP": 10,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Diazepam (Valium)",
            "Lorazepam (Ativan)",
            "Alprazolam (Xanax)",
            "Clonazepam (Klonopin)",
            "Midazolam (Versed)",
            "Zolpidem (Ambien)",
            "Eszopiclone (Lunesta)",
            "Temazepam (Restoril)",
            "Phenobarbital (Luminal)",
            "Secobarbital (Seconal)",
            "Diphenhydramine (Benadryl)",
            "Doxylamine (Unisom)",
            "Hydroxyzine (Vistaril)",
            "Buspirone (BuSpar)",
            "Chlordiazepoxide (Librium)",
            "Trazodone (Desyrel)",
            "Suvorexant (Belsomra)",
            "Ramelteon (Rozerem)",
            "Melatonin (Melatonex)",
            "Valerian root (Valeriana officinalis)",
            "Kava (Piper methysticum)",
            "L-theanine (Theanine)",
            "Passionflower (Passiflora incarnata)",
            "Lavender oil (Lavandula angustifolia)",
            "Chamomile (Matricaria chamomilla)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam (Valium)",
                "Alprazolam (Xanax)",
                "Midazolam (Versed)",
                "Zolpidem (Ambien)",
                "Eszopiclone (Lunesta)",
                "Phenobarbital (Luminal)",
                "Secobarbital (Seconal)",
                "Diphenhydramine (Benadryl)",
                "Doxylamine (Unisom)",
                "Buspirone (BuSpar)",
                "Chlordiazepoxide (Librium)",
                "Trazodone (Desyrel)"
            ],
            "mismatches": [
                "Lorazepam (Ativan)",
                "Clonazepam (Klonopin)",
                "Temazepam (Restoril)",
                "Hydroxyzine (Vistaril)",
                "Suvorexant (Belsomra)",
                "Ramelteon (Rozerem)",
                "Melatonin (Melatonex)",
                "Valerian root (Valeriana officinalis)",
                "Kava (Piper methysticum)",
                "L-theanine (Theanine)",
                "Passionflower (Passiflora incarnata)",
                "Lavender oil (Lavandula angustifolia)",
                "Chamomile (Matricaria chamomilla)"
            ],
            "true_referents": [
                "(5R)-zopiclone",
                "(R)-aceprometazine",
                "3alpha-hydroxy-5beta-pregnan-20-one",
                "alprazolam",
                "buspirone",
                "buspirone hydrochloride",
                "butalbital",
                "chlordiazepoxide",
                "chlorzoxazone",
                "diazepam",
                "diphenhydramine",
                "diphenhydramine hydrochloride",
                "diphenhydramine salicylate",
                "doxylamine",
                "eszopiclone",
                "flurazepam",
                "lormetazepam",
                "mianserin",
                "midazolam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "secobarbital",
                "secobarbital sodium",
                "thalidomide",
                "thiamylal",
                "trazodone",
                "trazodone hydrochloride",
                "triazolam",
                "valerenic acid",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 12,
            "FP": 13,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Diazepam (Valium)",
            "Lorazepam (Ativan)",
            "Alprazolam (Xanax)",
            "Clonazepam (Klonopin)",
            "Temazepam (Restoril)",
            "Zolpidem (Ambien)",
            "Barbiturates (Phenobarbital)",
            "Triazolam (Halcion)",
            "Estazolam (Prosom)",
            "Chloral Hydrate",
            "Methaqualone (Quaaludes)",
            "Zaleplon (Sonata)",
            "Eszopiclone (Lunesta)",
            "Ramelteon (Rozerem)",
            "Suvorexant (Belsomra)",
            "Doxylamine (Unisom)",
            "Diphenhydramine (Benadryl)",
            "Hydroxyzine (Vistaril)",
            "Mirtazapine (Remeron)",
            "Trazodone",
            "Quetiapine (Seroquel)",
            "Olanzapine (Zyprexa)",
            "Amitriptyline",
            "Pentobarbital (Nembutal)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam (Valium)",
                "Alprazolam (Xanax)",
                "Zolpidem (Ambien)",
                "Triazolam (Halcion)",
                "Chloral Hydrate",
                "Methaqualone (Quaaludes)",
                "Zaleplon (Sonata)",
                "Eszopiclone (Lunesta)",
                "Doxylamine (Unisom)",
                "Diphenhydramine (Benadryl)",
                "Trazodone"
            ],
            "mismatches": [
                "Lorazepam (Ativan)",
                "Clonazepam (Klonopin)",
                "Temazepam (Restoril)",
                "Barbiturates (Phenobarbital)",
                "Estazolam (Prosom)",
                "Ramelteon (Rozerem)",
                "Suvorexant (Belsomra)",
                "Hydroxyzine (Vistaril)",
                "Mirtazapine (Remeron)",
                "Quetiapine (Seroquel)",
                "Olanzapine (Zyprexa)",
                "Amitriptyline",
                "Pentobarbital (Nembutal)"
            ],
            "true_referents": [
                "(2R,3S,11bS)-benzquinamide",
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "alprazolam",
                "benzquinamide",
                "buspirone",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "chlorzoxazone",
                "diazepam",
                "diphenhydramine",
                "diphenhydramine hydrochloride",
                "diphenhydramine salicylate",
                "doxylamine",
                "eszopiclone",
                "flurazepam",
                "lormetazepam",
                "methaqualone",
                "mianserin",
                "midazolam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "secobarbital",
                "thalidomide",
                "trazodone",
                "triazolam",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 11,
            "FP": 13,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Diazepam (Valium)",
            "Lorazepam (Ativan)",
            "Zolpidem (Ambien)",
            "Alprazolam (Xanax)",
            "Clonazepam (Klonopin)",
            "Midazolam (Versed)",
            "Temazepam (Restoril)",
            "Propofol (Diprivan)",
            "Doxepin (Sinequan)",
            "Amitriptyline (Elavil)",
            "Trazodone (Desyrel)",
            "Quetiapine (Seroquel)",
            "Olanzapine (Zyprexa)",
            "Chloral hydrate",
            "Mirtazapine (Remeron)",
            "Promethazine (Phenergan)",
            "Diphenhydramine (Benadryl)",
            "Chlorpromazine (Thorazine)",
            "Haloperidol (Haldol)",
            "Lithium carbonate (Eskalith)",
            "Buspirone (Buspar)",
            "Hydroxyzine (Atarax)",
            "Gabapentin (Neurontin)",
            "Pregabalin (Lyrica)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam (Valium)",
                "Zolpidem (Ambien)",
                "Alprazolam (Xanax)",
                "Midazolam (Versed)",
                "Propofol (Diprivan)",
                "Trazodone (Desyrel)",
                "Chloral hydrate",
                "Promethazine (Phenergan)",
                "Diphenhydramine (Benadryl)",
                "Buspirone (Buspar)"
            ],
            "mismatches": [
                "Lorazepam (Ativan)",
                "Clonazepam (Klonopin)",
                "Temazepam (Restoril)",
                "Doxepin (Sinequan)",
                "Amitriptyline (Elavil)",
                "Quetiapine (Seroquel)",
                "Olanzapine (Zyprexa)",
                "Mirtazapine (Remeron)",
                "Chlorpromazine (Thorazine)",
                "Haloperidol (Haldol)",
                "Lithium carbonate (Eskalith)",
                "Hydroxyzine (Atarax)",
                "Gabapentin (Neurontin)",
                "Pregabalin (Lyrica)"
            ],
            "true_referents": [
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(S)-aceprometazine",
                "(Z)-chlorprothixene",
                "alprazolam",
                "buspirone",
                "buspirone hydrochloride",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "dexmedetomidine",
                "diazepam",
                "diphenhydramine",
                "diphenhydramine hydrochloride",
                "diphenhydramine salicylate",
                "doxylamine",
                "etomidate",
                "flurazepam",
                "lormetazepam",
                "methapyrilene",
                "mianserin",
                "midazolam",
                "promethazine",
                "promethazine hydrochloride",
                "propiomazine",
                "propofol",
                "remifentanil",
                "trazodone",
                "trazodone hydrochloride",
                "triazolam",
                "valerenic acid",
                "zolpidem"
            ],
            "TP": 10,
            "FP": 14,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Diazepam (Valium)",
            "Lorazepam (Ativan)",
            "Alprazolam (Xanax)",
            "Temazepam (Restoril)",
            "Midazolam (Versed)",
            "Clonazepam (Klonopin)",
            "Phenobarbital",
            "Triazolam (Halcion)",
            "Zolpidem (Ambien)",
            "Zaleplon (Sonata)",
            "Eszopiclone (Lunesta)",
            "Hydroxyzine (Vistaril)",
            "Buspirone",
            "Chloral hydrate",
            "Methaqualone (Quaalude)",
            "Melatonin",
            "Valerian root",
            "Kava",
            "Trazodone",
            "Quetiapine (Seroquel)",
            "Gabapentin",
            "Pregabalin",
            "Secobarbital",
            "Amobarbital"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam (Valium)",
                "Alprazolam (Xanax)",
                "Midazolam (Versed)",
                "Phenobarbital",
                "Triazolam (Halcion)",
                "Zolpidem (Ambien)",
                "Zaleplon (Sonata)",
                "Eszopiclone (Lunesta)",
                "Buspirone",
                "Chloral hydrate",
                "Methaqualone (Quaalude)",
                "Trazodone",
                "Secobarbital"
            ],
            "mismatches": [
                "Lorazepam (Ativan)",
                "Temazepam (Restoril)",
                "Clonazepam (Klonopin)",
                "Hydroxyzine (Vistaril)",
                "Melatonin",
                "Valerian root",
                "Kava",
                "Quetiapine (Seroquel)",
                "Gabapentin",
                "Pregabalin",
                "Amobarbital"
            ],
            "true_referents": [
                "(2R,3S,11bS)-benzquinamide",
                "(E)-chlorprothixene",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "alprazolam",
                "benzquinamide",
                "buspirone",
                "buspirone hydrochloride",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "dexmedetomidine",
                "diazepam",
                "doxylamine",
                "eszopiclone",
                "flurazepam",
                "lormetazepam",
                "methaqualone",
                "mianserin",
                "midazolam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "secobarbital",
                "secobarbital sodium",
                "thalidomide",
                "trazodone",
                "triazolam",
                "valerenic acid",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 13,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Benzodiazepines (BZDs)",
            "Barbiturates",
            "Zolpidem (Ambien)",
            "Eszopiclone (Lunesta)",
            "Zaleplon (Sonata)",
            "Melatonin",
            "Valerian root",
            "Gamma-Hydroxybutyric acid (GHB)",
            "Propofol",
            "Dexmedetomidine",
            "Ketamine",
            "Chloral hydrate",
            "Antihistamines (e.g., Diphenhydramine)",
            "Trazodone",
            "Gabapentin",
            "Pregabalin",
            "Phenobarbital",
            "Midazolam",
            "Lorazepam",
            "Clonazepam",
            "Alprazolam",
            "Thiopental",
            "Etomidate",
            "Ramelteon"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Zolpidem (Ambien)",
                "Eszopiclone (Lunesta)",
                "Zaleplon (Sonata)",
                "Propofol",
                "Dexmedetomidine",
                "Chloral hydrate",
                "Antihistamines (e.g., Diphenhydramine)",
                "Trazodone",
                "Phenobarbital",
                "Midazolam",
                "Alprazolam",
                "Thiopental",
                "Etomidate"
            ],
            "mismatches": [
                "Benzodiazepines (BZDs)",
                "Barbiturates",
                "Melatonin",
                "Valerian root",
                "Gamma-Hydroxybutyric acid (GHB)",
                "Ketamine",
                "Gabapentin",
                "Pregabalin",
                "Lorazepam",
                "Clonazepam",
                "Ramelteon"
            ],
            "true_referents": [
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "4-hydroxybutyric acid",
                "alprazolam",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "dexmedetomidine",
                "dexmedetomidine hydrochloride",
                "diazepam",
                "diphenhydramine",
                "diphenhydramine hydrochloride",
                "diphenhydramine salicylate",
                "eszopiclone",
                "etomidate",
                "flurazepam",
                "mianserin",
                "midazolam",
                "pacatal",
                "phenobarbital",
                "propofol",
                "remifentanil",
                "secobarbital",
                "thalidomide",
                "thiopental",
                "trazodone",
                "valerenic acid",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 13,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Diazepam (Valium)",
            "Alprazolam (Xanax)",
            "Lorazepam (Ativan)",
            "Clonazepam (Klonopin)",
            "Zolpidem (Ambien)",
            "Eszopiclone (Lunesta)",
            "Temazepam (Restoril)",
            "Triazolam (Halcion)",
            "Midazolam (Versed)",
            "Phenobarbital",
            "Pentobarbital",
            "Secobarbital (Seconal)",
            "Chloral hydrate",
            "Meprobamate (Miltown)",
            "Methaqualone (Quaalude)",
            "Ethchlorvynol (Placidyl)",
            "Glutethimide (Doriden)",
            "Promethazine (Phenergan)",
            "Hydroxyzine (Atarax, Vistaril)",
            "Diphenhydramine (Benadryl)",
            "Doxylamine (Unisom)",
            "Trazodone (Desyrel)",
            "Ramelteon (Rozerem)",
            "Suvorexant (Belsomra)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Diazepam",
                "Alprazolam",
                "Zolpidem",
                "Eszopiclone",
                "Triazolam",
                "Midazolam",
                "Phenobarbital",
                "Secobarbital",
                "Chloral hydrate",
                "Methaqualone",
                "Ethchlorvynol",
                "Promethazine",
                "Diphenhydramine",
                "Doxylamine",
                "Trazodone"
            ],
            "mismatches": [
                "Lorazepam",
                "Clonazepam",
                "Temazepam",
                "Pentobarbital",
                "Meprobamate",
                "Glutethimide",
                "Hydroxyzine",
                "Ramelteon",
                "Suvorexant"
            ],
            "true_referents": [
                "(2R,3S,11bS)-benzquinamide",
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "aceprometazine",
                "alprazolam",
                "benzquinamide",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "chlorzoxazone",
                "diazepam",
                "diphenhydramine",
                "diphenhydramine hydrochloride",
                "diphenhydramine salicylate",
                "doxylamine",
                "eszopiclone",
                "ethchlorvynol",
                "ethinamate",
                "etorphine",
                "eucommiol",
                "flurazepam",
                "lormetazepam",
                "methaqualone",
                "mianserin",
                "midazolam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "propiomazine",
                "secobarbital",
                "secobarbital sodium",
                "thalidomide",
                "trazodone",
                "trazodone hydrochloride",
                "triazolam",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 15,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Zolpidem (ZOL)",
            "Eszopiclone (ESZ)",
            "Zaleplon (ZAL)",
            "Triazolam (TRI)",
            "Temazepam (TEM)",
            "Alprazolam (ALP)",
            "Lorazepam (LOR)",
            "Clonazepam (CLO)",
            "Diazepam (DIA)",
            "Chlordiazepoxide (CDP)",
            "Clorazepate (CZP)",
            "Flurazepam (FLU)",
            "Quazepam (QUA)",
            "Estazolam (EST)",
            "Midazolam (MID)",
            "Propofol (PRO)",
            "Ketamine (KET)",
            "Dexmedetomidine (DEX)",
            "Promethazine (PMZ)",
            "Hydroxyzine (HYD)",
            "Melatonin (MEL)",
            "Valerian Root Extract",
            "Chamomile Extract",
            "Lavender Essential Oil"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Zolpidem (ZOL)",
                "Eszopiclone (ESZ)",
                "Zaleplon (ZAL)",
                "Triazolam (TRI)",
                "Alprazolam (ALP)",
                "Diazepam (DIA)",
                "Chlordiazepoxide (CDP)",
                "Flurazepam (FLU)",
                "Midazolam (MID)",
                "Propofol (PRO)",
                "Dexmedetomidine (DEX)",
                "Promethazine (PMZ)"
            ],
            "mismatches": [
                "Temazepam (TEM)",
                "Lorazepam (LOR)",
                "Clonazepam (CLO)",
                "Clorazepate (CZP)",
                "Quazepam (QUA)",
                "Estazolam (EST)",
                "Ketamine (KET)",
                "Hydroxyzine (HYD)",
                "Melatonin (MEL)",
                "Valerian Root Extract",
                "Chamomile Extract",
                "Lavender Essential Oil"
            ],
            "true_referents": [
                "(5R)-zopiclone",
                "(R)-thalidomide",
                "alprazolam",
                "brexanolone",
                "butalbital",
                "chlordiazepoxide",
                "chlorzoxazone",
                "cinolazepam",
                "dexmedetomidine",
                "dexmedetomidine hydrochloride",
                "diazepam",
                "didesethylflurazepam",
                "diphenhydramine",
                "diphenhydramine salicylate",
                "doxylamine",
                "eszopiclone",
                "etomidate",
                "flunitrazepam",
                "flurazepam",
                "lormetazepam",
                "mianserin",
                "midazolam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "propiomazine",
                "propofol",
                "remifentanil",
                "thalidomide",
                "thiopental",
                "trazodone",
                "triazolam",
                "valerenic acid",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 12,
            "FP": 12,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Alprazolam (ALP)",
            "Barbital (BAR)",
            "Chloral Hydrate (CH)",
            "Clonazepam (CLZ)",
            "Diazepam (DZP)",
            "Eszopiclone (ESZ)",
            "Flurazepam (FLU)",
            "Glutethimide (GLU)",
            "Hydroxyzine (HYD)",
            "Lorazepam (LOR)",
            "Melatonin (MEL)",
            "Midazolam (MID)",
            "Nitrazepam (NIT)",
            "Oxazepam (OXA)",
            "Pentobarbital (PEN)",
            "Phenobarbital (PHE)",
            "Promethazine (PRO)",
            "Ramelteon (RAM)",
            "Secobarbital (SEC)",
            "Temazepam (TEM)",
            "Triazolam (TRI)",
            "Valerian (VAL)",
            "Zaleplon (ZAL)",
            "Zolpidem (ZOL)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alprazolam (ALP)",
                "Chloral Hydrate (CH)",
                "Diazepam (DZP)",
                "Eszopiclone (ESZ)",
                "Flurazepam (FLU)",
                "Midazolam (MID)",
                "Nitrazepam (NIT)",
                "Phenobarbital (PHE)",
                "Promethazine (PRO)",
                "Secobarbital (SEC)",
                "Triazolam (TRI)",
                "Zaleplon (ZAL)",
                "Zolpidem (ZOL)"
            ],
            "mismatches": [
                "Barbital (BAR)",
                "Clonazepam (CLZ)",
                "Glutethimide (GLU)",
                "Hydroxyzine (HYD)",
                "Lorazepam (LOR)",
                "Melatonin (MEL)",
                "Oxazepam (OXA)",
                "Pentobarbital (PEN)",
                "Ramelteon (RAM)",
                "Temazepam (TEM)",
                "Valerian (VAL)"
            ],
            "true_referents": [
                "(E)-chlorprothixene",
                "(R)-aceprometazine",
                "(R)-thalidomide",
                "(Z)-chlorprothixene",
                "alprazolam",
                "butalbital",
                "chloral hydrate",
                "chlordiazepoxide",
                "diazepam",
                "didesethylflurazepam",
                "doxylamine",
                "eszopiclone",
                "flunitrazepam",
                "flurazepam",
                "lormetazepam",
                "midazolam",
                "nimetazepam",
                "nitrazepam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "propiomazine",
                "secobarbital",
                "secobarbital sodium",
                "thalidomide",
                "thiamylal",
                "trazodone",
                "triazolam",
                "valerenic acid",
                "zaleplon",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 13,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Alprazolam (Xanax)",
            "Barbital (Veronal)",
            "Benzodiazepine",
            "Bromazepam (Lectopam)",
            "Buspirone (Buspar)",
            "Clobazam (Frisium)",
            "Clonazepam (Klonopin)",
            "Clorazepate (Tranxene)",
            "Diazepam (Valium)",
            "Estazolam (Prograine)",
            "Ethchlorvynol (Placidyl)",
            "Flurazepam (Dalmane)",
            "GABA",
            "Hydroxyzine (Vistaril)",
            "Lorazepam (Ativan)",
            "Midazolam (Versed)",
            "Nitrazepam (Mogadon)",
            "Oxazepam (Serax)",
            "Pentobarbital (Nembutal)",
            "Phenobarbital (Luminal)",
            "Prazepam (Centrax)",
            "Temazepam (Restoril)",
            "Triazolam (Halcion)",
            "Zolpidem (Ambien)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alprazolam (Xanax)",
                "Buspirone (Buspar)",
                "Diazepam (Valium)",
                "Ethchlorvynol (Placidyl)",
                "Flurazepam (Dalmane)",
                "Midazolam (Versed)",
                "Nitrazepam (Mogadon)",
                "Phenobarbital (Luminal)",
                "Triazolam (Halcion)",
                "Zolpidem (Ambien)"
            ],
            "mismatches": [
                "Barbital (Veronal)",
                "Benzodiazepine",
                "Bromazepam (Lectopam)",
                "Clobazam (Frisium)",
                "Clonazepam (Klonopin)",
                "Clorazepate (Tranxene)",
                "Estazolam (Prograine)",
                "GABA",
                "Hydroxyzine (Vistaril)",
                "Lorazepam (Ativan)",
                "Oxazepam (Serax)",
                "Pentobarbital (Nembutal)",
                "Prazepam (Centrax)",
                "Temazepam (Restoril)"
            ],
            "true_referents": [
                "(Z)-chlorprothixene",
                "adinazolam",
                "alprazolam",
                "buspirone",
                "buspirone hydrochloride",
                "butalbital",
                "chlordiazepoxide",
                "chlorzoxazone",
                "diazepam",
                "doxylamine",
                "ethchlorvynol",
                "etorphine",
                "eucommiol",
                "flunitrazepam",
                "flurazepam",
                "lormetazepam",
                "mianserin",
                "midazolam",
                "nitrazepam",
                "nordazepam",
                "phenobarbital",
                "promethazine",
                "promethazine hydrochloride",
                "propiomazine",
                "secobarbital",
                "triazolam",
                "zolpidem"
            ],
            "TP": 10,
            "FP": 14,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            "Alprazolam (Xanax)",
            "Diazepam (Valium)",
            "Chlordiazepoxide (Librium)",
            "Clonazepam (Klonopin)",
            "Lorazepam (Ativan)",
            "Midazolam (Versed)",
            "Triazolam (Halcion)",
            "Estazolam (ProSom)",
            "Quazepam (Doral)",
            "Flurazepam (Dalmane)",
            "Temazepam (Restoril)",
            "Nitrazepam (Mogadon)",
            "Flunitrazepam (Rohypnol)",
            "Bromazepam (Lexotan)",
            "Clobazam (Onfi)",
            "Clorazepate (Tranxene)",
            "Prazepam (Trepiline)",
            "Haloxazolam (Sonal)",
            "Camazepam (Albego)",
            "Ethchlorvynol (Placidyl)",
            "Methaqualone (Quaalude)",
            "Barbital (Veronal)",
            "Pentobarbital (Nembutal)",
            "Secobarbital (Seconal)",
            "Amobarbital (Amytal)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alprazolam (Xanax)",
                "Diazepam (Valium)",
                "Chlordiazepoxide (Librium)",
                "Midazolam (Versed)",
                "Triazolam (Halcion)",
                "Flurazepam (Dalmane)",
                "Nitrazepam (Mogadon)",
                "Flunitrazepam (Rohypnol)",
                "Ethchlorvynol (Placidyl)",
                "Methaqualone (Quaalude)",
                "Secobarbital (Seconal)"
            ],
            "mismatches": [
                "Clonazepam (Klonopin)",
                "Lorazepam (Ativan)",
                "Estazolam (ProSom)",
                "Quazepam (Doral)",
                "Temazepam (Restoril)",
                "Bromazepam (Lexotan)",
                "Clobazam (Onfi)",
                "Clorazepate (Tranxene)",
                "Prazepam (Trepiline)",
                "Haloxazolam (Sonal)",
                "Camazepam (Albego)",
                "Barbital (Veronal)",
                "Pentobarbital (Nembutal)",
                "Amobarbital (Amytal)"
            ],
            "true_referents": [
                "(2R,3S,11bS)-benzquinamide",
                "(Z)-chlorprothixene",
                "adinazolam",
                "alprazolam",
                "benzquinamide",
                "butalbital",
                "chlordiazepoxide",
                "chlorzoxazone",
                "diazepam",
                "ethchlorvynol",
                "etorphine",
                "eucommiol",
                "flunitrazepam",
                "flurazepam",
                "lormetazepam",
                "methaqualone",
                "midazolam",
                "nimetazepam",
                "nitrazepam",
                "nordazepam",
                "phenobarbital",
                "secobarbital",
                "secobarbital sodium",
                "trazodone",
                "triazolam",
                "zolpidem"
            ],
            "TP": 11,
            "FP": 14,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "sedative",
        "domain": "medicine",
        "response": [
            {
                "Referent": "Alprazolam",
                "Canonical name": "Alprazolam"
            },
            {
                "Referent": "Chlorpromazine",
                "Canonical name": "Chlorpromazine"
            },
            {
                "Referent": "Clonazepam",
                "Canonical name": "Clonazepam"
            },
            {
                "Referent": "Diazepam",
                "Canonical name": "Diazepam"
            },
            {
                "Referent": "Estazolam",
                "Canonical name": "Estazolam"
            },
            {
                "Referent": "Flunitrazepam",
                "Canonical name": "Flunitrazepam"
            },
            {
                "Referent": "Lorazepam",
                "Canonical name": "Lorazepam"
            },
            {
                "Referent": "Midazolam",
                "Canonical name": "Midazolam"
            },
            {
                "Referent": "Oxazepam",
                "Canonical name": "Oxazepam"
            },
            {
                "Referent": "Temazepam",
                "Canonical name": "Temazepam"
            },
            {
                "Referent": "Tranquillizer",
                "Canonical name": "Tranquillizer"
            },
            {
                "Referent": "Tranquilizer",
                "Canonical name": "Tranquilizer"
            },
            {
                "Referent": "Tranquilizers",
                "Canonical name": "Tranquilizers"
            },
            {
                "Referent": "Zolpidem",
                "Canonical name": "Zolpidem"
            }
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Alprazolam",
                "Diazepam",
                "Flunitrazepam",
                "Midazolam",
                "Zolpidem"
            ],
            "mismatches": [
                "Chlorpromazine",
                "Clonazepam",
                "Estazolam",
                "Lorazepam",
                "Oxazepam",
                "Temazepam",
                "Tranquillizer",
                "Tranquilizer",
                "Tranquilizers"
            ],
            "true_referents": [
                "(5R)-zopiclone",
                "(R)-aceprometazine",
                "(S)-aceprometazine",
                "aceprometazine",
                "alprazolam",
                "chlordiazepoxide",
                "diazepam",
                "flunitrazepam",
                "flurazepam",
                "midazolam",
                "nitrazepam",
                "phenobarbital",
                "triazolam",
                "zolpidem",
                "zopiclone"
            ],
            "TP": 5,
            "FP": 9,
            "FN": 0
        }
    }
]