[
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "glucose (Glc)",
            "fructose (Fru)",
            "mannose (Man)",
            "galactose (Gal)",
            "tagatose",
            "sorbose",
            "ribose (Rbo)",
            "arabinose",
            "xylose (Xyl)",
            "lyxose",
            "altrufuranose",
            "idose",
            "talose",
            "psicose",
            "sedoheptulose",
            "erythrulose",
            "ribulose",
            "xylulose",
            "sorbose",
            "tagatose",
            "glyceraldehyde",
            "dihydroxyacetone",
            "glycerol",
            "deoxyribose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "glucose (Glc)",
                "fructose (Fru)",
                "mannose (Man)",
                "galactose (Gal)",
                "tagatose",
                "sorbose",
                "idose",
                "talose",
                "psicose"
            ],
            "mismatches": [
                "ribose (Rbo)",
                "arabinose",
                "xylose (Xyl)",
                "lyxose",
                "altrufuranose",
                "sedoheptulose",
                "erythrulose",
                "ribulose",
                "xylulose",
                "glyceraldehyde",
                "dihydroxyacetone",
                "glycerol",
                "deoxyribose"
            ],
            "true_referents": [
                "1,5-anhydro-D-erythro-hex-1-en-3-ulose",
                "1-deoxy-D-threo-hexo-2,5-diulose 6-phosphate",
                "2,5-dihydroxybenzoic acid 2-O-beta-D-glucoside",
                "2-O-(alpha-D-glucopyranosyl)-D-glycerate",
                "2-O-(beta-D-glucosyl)glycerol",
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "D-altrofuranose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-fructose",
                "D-glucose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-ribo-Hexos-3-ulose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-altrofuranose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "L-xylo-3-hexulose",
                "L-xylo-hexos-2-ulose",
                "altrofuranose",
                "arabidopside A",
                "beta-D-galactose",
                "beta-L-allose",
                "deoxyglucose",
                "deoxyhexose",
                "deoxytalose",
                "eriodictyol 7-O-beta-D-glucopyranoside",
                "fructopyranose",
                "fructose",
                "galactose",
                "glucose",
                "idose",
                "keto-D-tagatose",
                "keto-L-tagatose",
                "mannose",
                "psicose",
                "selaginose",
                "sorbose",
                "tagatose",
                "talose",
                "xylo-hexos-2-ulose"
            ],
            "TP": 9,
            "FP": 13,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "phi-v4",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Fructose (Fru)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Psicose (Psi)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Fructose (Fru)",
                "Sorbose (Sor)",
                "Tagatose (Tag)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Psicose (Psi)"
            ],
            "mismatches": [],
            "true_referents": [
                "D-allose",
                "D-altrose",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "allose",
                "altrose",
                "beta-D-galactose",
                "fructose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "psicose",
                "sorbose",
                "tagatose",
                "talose"
            ],
            "TP": 12,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "mistral-small-instruct-24B",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (D-Glucose)",
            "Fructose (D-Fructose)",
            "Galactose (D-Galactose)",
            "Mannose (D-Mannose)",
            "Allose (D-Allose)",
            "Altrose (D-Altrose)",
            "Gulose (D-Gulose)",
            "Idose (D-Idose)",
            "Talose (D-Talose)",
            "L-Glucose",
            "L-Fructose",
            "L-Galactose",
            "L-Mannose",
            "L-Allose",
            "L-Altrose",
            "L-Gulose",
            "L-Idose",
            "L-Talose",
            "Psicose (D-Psicose)",
            "Tagatose (D-Tagatose)",
            "Sorbose (D-Sorbose)",
            "Xylulose (D-Xylulose)",
            "Ribulose (D-Ribulose)",
            "Arabinose (D-Arabinose)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "D-glucose",
                "D-fructose",
                "D-galactose",
                "D-mannose",
                "D-allose",
                "D-altrose",
                "D-gulose",
                "D-idose",
                "D-talose",
                "L-glucose",
                "L-fructose",
                "L-galactose",
                "L-mannose",
                "L-allose",
                "L-altrose",
                "L-gulose",
                "L-idose",
                "L-talose",
                "D-psicose",
                "D-tagatose",
                "D-sorbose"
            ],
            "mismatches": [
                "Xylulose (D-Xylulose)",
                "Ribulose (D-Ribulose)",
                "Arabinose (D-Arabinose)"
            ],
            "true_referents": [
                "5-dehydro-D-fructose",
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "D-allose",
                "D-altrose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-cymarose",
                "D-fructose",
                "D-galactose",
                "D-glucopyranose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-altrose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-idose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "L-xylo-3-hexulose",
                "alpha-L-galactose",
                "alpha-L-gulose",
                "arabidopside A",
                "beta-L-allose",
                "beta-L-glucose",
                "beta-L-mannose",
                "keto-L-fructose",
                "psicose",
                "sorbose",
                "tagatose"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gemma-3",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Allose (Alo)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Psicose (Psy)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Ribose (Rib)",
            "Xylose (Xyl)",
            "Lyxose (Lxy)",
            "Arabinose (Ara)",
            "Rhamnose (Rha)",
            "Fucose (Fuc)",
            "Sedoheptulose (Sed)",
            "Psicose (Psic)",
            "Allulose (All)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Mannose (Man)",
                "Allose (Alo)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Psicose (Psy)",
                "Sorbose (Sor)",
                "Tagatose (Tag)",
                "Rhamnose (Rha)",
                "Fucose (Fuc)"
            ],
            "mismatches": [
                "Galactose (Gal)",
                "Ribose (Rib)",
                "Xylose (Xyl)",
                "Lyxose (Lxy)",
                "Arabinose (Ara)",
                "Sedoheptulose (Sed)",
                "Psicose (Psic)",
                "Allulose (All)"
            ],
            "true_referents": [
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "D-altrose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-rhamnose",
                "D-ribo-Hexos-3-ulose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-fructose",
                "L-fucose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-mannose",
                "L-psicose",
                "L-rhamnose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "L-xylo-3-hexulose",
                "L-xylo-hexos-2-ulose",
                "aldehydo-allose",
                "allose",
                "allose phosphate",
                "altrose",
                "arabidopside A",
                "beta-D-galactose",
                "cladinose",
                "deoxyglucose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "psicose",
                "rhamnose",
                "selaginose",
                "sorbose",
                "tagatose",
                "talose",
                "xylo-hexos-2-ulose"
            ],
            "TP": 13,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (C6H12O6)",
            "Fructose (C6H12O6)",
            "Galactose (C6H12O6)",
            "Mannose (C6H12O6)",
            "Allose (C6H12O6)",
            "Altrose (C6H12O6)",
            "Gulose (C6H12O6)",
            "Idose (C6H12O6)",
            "Talose (C6H12O6)",
            "Sorbose (C6H12O6)",
            "Tagatose (C6H12O6)",
            "Psicose (C6H12O6)",
            "Rhamnose (C6H12O5)",
            "Fucose (C6H12O5)",
            "Xylohexose (C6H12O6)",
            "Arabinohexose (C6H12O6)",
            "Lyxohexose (C6H12O6)",
            "Ribohexose (C6H12O6)",
            "Lyxose (C6H12O6)",
            "Ribose (C6H12O6)",
            "Xylose (C6H12O6)",
            "Arabinose (C6H12O6)",
            "Erythrose (C6H12O6)",
            "Threose (C6H12O6)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (C6H12O6)",
                "Fructose (C6H12O6)",
                "Galactose (C6H12O6)",
                "Mannose (C6H12O6)",
                "Allose (C6H12O6)",
                "Talose (C6H12O6)",
                "Sorbose (C6H12O6)",
                "Psicose (C6H12O6)",
                "Rhamnose (C6H12O5)",
                "Fucose (C6H12O5)"
            ],
            "mismatches": [
                "Altrose (C6H12O6)",
                "Gulose (C6H12O6)",
                "Idose (C6H12O6)",
                "Tagatose (C6H12O6)",
                "Xylohexose (C6H12O6)",
                "Arabinohexose (C6H12O6)",
                "Lyxohexose (C6H12O6)",
                "Ribohexose (C6H12O6)",
                "Lyxose (C6H12O6)",
                "Ribose (C6H12O6)",
                "Xylose (C6H12O6)",
                "Arabinose (C6H12O6)",
                "Erythrose (C6H12O6)",
                "Threose (C6H12O6)"
            ],
            "true_referents": [
                "(2xi)-6-O-alpha-D-glucopyranosyl-D-arabino-hexitol",
                "1,5-anhydro-D-erythro-hex-1-en-3-ulose",
                "1-deoxy-D-threo-hexo-2,5-diulose 6-phosphate",
                "2,4-diacetamido-2,4,6-trideoxy-beta-L-altrose",
                "3,4-di-O-methyl-alpha-L-rhamnose",
                "3,6-anhydro-D-galactose",
                "3,6-anhydro-D-glucose",
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "6-deoxy-hexose",
                "Aldehydo-D-altrose",
                "D-Thevetose",
                "D-allose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-fructose",
                "D-hexose",
                "D-mannose",
                "D-psicose",
                "D-rhamnose",
                "D-ribo-Hexos-3-ulose",
                "D-sorbose",
                "D-talose",
                "Glucosyl 6-hydroxy-2,6-dimethyl-2E,7-octadienoate",
                "L-allose",
                "L-fructose",
                "L-fucose",
                "L-galactose",
                "L-glucose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-talose",
                "aldehydo-D-gulose",
                "aldehydo-D-idose",
                "aldehydo-L-glucose",
                "allose",
                "deoxyglucose",
                "deoxyhexose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "mannose",
                "psicose",
                "rhamnose",
                "sorbose",
                "tagatose derivative",
                "talose",
                "trideoxyhexose"
            ],
            "TP": 10,
            "FP": 14,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o-mini",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (C6H12O6)",
            "Galactose (C6H12O6)",
            "Fructose (C6H12O6)",
            "Mannose (C6H12O6)",
            "Allose (C6H12O6)",
            "Altrose (C6H12O6)",
            "Talose (C6H12O6)",
            "Idose (C6H12O6)",
            "Glucose-6-phosphate (C6H13O9P)",
            "Galactose-1-phosphate (C6H13O9P)",
            "D-Mannose (C6H12O6)",
            "D-Allose (C6H12O6)",
            "D-Altrose (C6H12O6)",
            "D-Talose (C6H12O6)",
            "D-Idose (C6H12O6)",
            "D-Fructose (C6H12O6)",
            "D-Glucose (C6H12O6)",
            "D-Galactose (C6H12O6)",
            "D-Mannose (C6H12O6)",
            "L-Glucose (C6H12O6)",
            "L-Galactose (C6H12O6)",
            "L-Mannose (C6H12O6)",
            "L-Fructose (C6H12O6)",
            "D-Tagatose (C6H12O6)",
            "D-Sorbose (C6H12O6)",
            "D-Psicose (C6H12O6)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (C6H12O6)",
                "Galactose (C6H12O6)",
                "Fructose (C6H12O6)",
                "Mannose (C6H12O6)",
                "Allose (C6H12O6)",
                "D-Mannose (C6H12O6)",
                "D-Allose (C6H12O6)",
                "D-Fructose (C6H12O6)",
                "D-Glucose (C6H12O6)",
                "D-Galactose (C6H12O6)",
                "L-Glucose (C6H12O6)",
                "L-Galactose (C6H12O6)",
                "L-Mannose (C6H12O6)",
                "L-Fructose (C6H12O6)"
            ],
            "mismatches": [
                "Altrose (C6H12O6)",
                "Talose (C6H12O6)",
                "Idose (C6H12O6)",
                "Glucose-6-phosphate (C6H13O9P)",
                "Galactose-1-phosphate (C6H13O9P)",
                "D-Altrose (C6H12O6)",
                "D-Talose (C6H12O6)",
                "D-Idose (C6H12O6)",
                "D-Tagatose (C6H12O6)",
                "D-Sorbose (C6H12O6)",
                "D-Psicose (C6H12O6)"
            ],
            "true_referents": [
                "2,4-diacetamido-2,4,6-trideoxy-beta-L-altrose",
                "3,6-anhydro-D-galactose",
                "3,6-anhydro-D-glucose",
                "5-dehydro-D-fructose",
                "Aldehydo-D-altrose",
                "D-allose",
                "D-altrose",
                "D-fructose",
                "D-galactose",
                "D-glucose",
                "D-glucose 6-phosphate",
                "D-mannose",
                "D-tagatose 1,6-bisphosphate",
                "D-tagatose 6-phosphate",
                "D-talose",
                "L-allose",
                "L-fructose",
                "L-galactopyranose",
                "L-galactose",
                "L-galactose 1-phosphate",
                "L-glucose",
                "L-mannose",
                "L-talose",
                "aldehydo-D-idose",
                "allose",
                "beta-L-glucose",
                "beta-L-mannose",
                "fructose",
                "galactose",
                "glucose",
                "mannose",
                "talose"
            ],
            "TP": 14,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4-32k",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Allose",
            "Altrose",
            "Gulose",
            "Idose",
            "Talose",
            "Psicose",
            "Fructose (Fru)",
            "Sorbose",
            "Tagatose",
            "Glucosamine",
            "Galactosamin",
            "Mannosamine",
            "Allosamine",
            "Altrosamine",
            "Gulosamine",
            "Idosamine",
            "Talosamine",
            "Psicosamine",
            "Fructosamine",
            "Sorbosamine",
            "Tagatosamine"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Allose",
                "Altrose",
                "Gulose",
                "Idose",
                "Talose",
                "Psicose",
                "Sorbose",
                "Tagatose"
            ],
            "mismatches": [
                "Glucose (Glc)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Fructose (Fru)",
                "Glucosamine",
                "Galactosamin",
                "Mannosamine",
                "Allosamine",
                "Altrosamine",
                "Gulosamine",
                "Idosamine",
                "Talosamine",
                "Psicosamine",
                "Fructosamine",
                "Sorbosamine",
                "Tagatosamine"
            ],
            "true_referents": [
                "D-allose",
                "D-altrose",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-altrose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "N-Acetyl-6-deoxy-D-talosamine",
                "N-Acetyl-6-deoxy-L-altrosamine",
                "UDP-4-amino-4,6-dideoxy-L-N-acetyl-beta-L-altrosamine",
                "acosamine",
                "allose",
                "alpha-D-galactosamine",
                "alpha-D-kanosamine",
                "alpha-L-gulose",
                "altrose",
                "beta-D-galactose",
                "beta-D-glucosamine",
                "forosamine",
                "fructopyranose",
                "fructosamine 3-phosphate",
                "fructose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "neamine",
                "psicosamine",
                "psicose",
                "sorbopyranose",
                "sorbose",
                "tagatose",
                "tagatose derivative",
                "talose"
            ],
            "TP": 8,
            "FP": 16,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-35-turbo-16k",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose",
            "Fructose",
            "Galactose",
            "Mannose",
            "Ribose",
            "Xylose",
            "Arabinose",
            "Lyxose",
            "Allose",
            "Altrose",
            "Gulose",
            "Idose",
            "Talose",
            "Erythrose",
            "Threose",
            "Pentose",
            "Hexose",
            "Heptose",
            "Octose",
            "Nonose",
            "Decose",
            "Undecose",
            "Dodecose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose",
                "Fructose",
                "Galactose",
                "Mannose",
                "Allose",
                "Altrose",
                "Gulose",
                "Idose",
                "Talose"
            ],
            "mismatches": [
                "Ribose",
                "Xylose",
                "Arabinose",
                "Lyxose",
                "Erythrose",
                "Threose",
                "Pentose",
                "Hexose",
                "Heptose",
                "Octose",
                "Nonose",
                "Decose",
                "Undecose",
                "Dodecose"
            ],
            "true_referents": [
                "1,5-anhydro-D-erythro-hex-1-en-3-ulose",
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "6-deoxy-hexose",
                "D-Thevetose",
                "D-allose",
                "D-altrose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-diginose",
                "D-gulose",
                "D-hexose",
                "D-idose",
                "D-ribo-Hexos-3-ulose",
                "D-talose",
                "L-allose",
                "L-altrose",
                "L-fructose",
                "L-galactose",
                "L-gulose",
                "L-mannose",
                "L-talose",
                "aldohexose",
                "allose",
                "altrose",
                "arabidopside A",
                "ascarylose",
                "beta-D-Galf-(1->5)-beta-D-Galf-(1->5)-beta-D-Galf-(1->5)-beta-D-Galf",
                "beta-L-allose",
                "beta-L-galactose",
                "beta-L-glucose",
                "deoxyglucose",
                "deoxyhexose",
                "digitalose",
                "fructopyranose",
                "fructose",
                "galactose",
                "glucose",
                "glucose phosphate",
                "gulose",
                "hexose 1-phosphate",
                "hexose phosphate",
                "idose",
                "keto-fructose",
                "mannose",
                "mannose phosphate",
                "octyl beta-D-glucopyranoside",
                "paratose",
                "sorbose",
                "talose",
                "trideoxyhexose"
            ],
            "TP": 9,
            "FP": 14,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "o1-mini",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Allose",
            "Altrose",
            "Gulose",
            "Idose",
            "Talose",
            "Psicose",
            "Sorbose",
            "Tagatose",
            "Ribulose",
            "Xylose",
            "Arabinose",
            "Lyxose",
            "Fucose",
            "Inose",
            "Vose",
            "Erythrose",
            "Threose",
            "Erythrulose",
            "Lactulose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Allose",
                "Altrose",
                "Gulose",
                "Idose",
                "Talose",
                "Psicose",
                "Sorbose",
                "Tagatose",
                "Fucose"
            ],
            "mismatches": [
                "Ribulose",
                "Xylose",
                "Arabinose",
                "Lyxose",
                "Inose",
                "Vose",
                "Erythrose",
                "Threose",
                "Erythrulose",
                "Lactulose"
            ],
            "true_referents": [
                "1,5-anhydro-D-erythro-hex-1-en-3-ulose",
                "1-deoxy-D-threo-hexo-2,5-diulose 6-phosphate",
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "D-Thevetose",
                "D-allose",
                "D-altrose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-olivose",
                "D-psicose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-altrose",
                "L-fructopyranose",
                "L-fructose",
                "L-fucose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "aldohexose",
                "allose",
                "altrose",
                "arabidopside A",
                "ascarylose",
                "beta-D-galactose",
                "beta-L-allose",
                "deoxyglucose",
                "deoxytalose",
                "digitalose",
                "eriodictyol 7-O-beta-D-glucopyranoside",
                "fructopyranose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "noviose",
                "psicose",
                "sorbose",
                "tagatose",
                "talose"
            ],
            "TP": 13,
            "FP": 10,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "D-glucose (Glc)",
            "D-fructose (Fru)",
            "D-galactose (Gal)",
            "D-mannose (Man)",
            "D-allose (All)",
            "D-altrose (Alt)",
            "D-gulose (Gul)",
            "D-idose (Ido)",
            "D-talose (Tal)",
            "D-psicose (Psi)",
            "D-sorbose (Sor)",
            "D-tagatose (Tag)",
            "L-glucose",
            "L-fructose",
            "L-galactose",
            "L-mannose",
            "L-allose",
            "L-altrose",
            "L-gulose",
            "L-idose",
            "L-talose",
            "L-psicose",
            "L-sorbose",
            "L-tagatose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "D-glucose",
                "D-fructose",
                "D-galactose",
                "D-mannose",
                "D-allose",
                "D-altrose",
                "D-gulose",
                "D-idose",
                "D-talose",
                "D-psicose",
                "D-sorbose",
                "D-tagatose",
                "L-glucose",
                "L-fructose",
                "L-galactose",
                "L-mannose",
                "L-allose",
                "L-altrose",
                "L-gulose",
                "L-idose",
                "L-talose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose"
            ],
            "mismatches": [],
            "true_referents": [
                "5-dehydro-D-fructose",
                "D-allose",
                "D-altrose",
                "D-fructose",
                "D-galactose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-sorbose",
                "D-sorbose 1-phosphate",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-altrose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-idose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-sorbose 1-phosphate",
                "L-tagatose",
                "L-talose",
                "alpha-L-galactose",
                "alpha-L-gulose",
                "beta-L-allose",
                "beta-L-glucose",
                "beta-L-mannose",
                "keto-D-tagatose",
                "keto-L-fructose",
                "keto-L-tagatose",
                "psicose",
                "tagatose"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "D-Glucose (Glc)",
            "D-Mannose (Man)",
            "D-Galactose (Gal)",
            "D-Talose (Tal)",
            "D-Allose (All)",
            "D-Altrose (Alt)",
            "D-Idose (Ido)",
            "D-Gulose (Gul)",
            "L-Glucose",
            "L-Mannose",
            "L-Galactose",
            "L-Talose",
            "L-Allose",
            "L-Altrose",
            "L-Idose",
            "L-Gulose",
            "D-Fructose (Fru)",
            "D-Psicose (Psi)",
            "D-Sorbose (Sor)",
            "D-Tagatose (Tag)",
            "L-Fructose",
            "L-Psicose",
            "L-Sorbose",
            "L-Tagatose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "D-Glucose (Glc)",
                "D-Mannose (Man)",
                "D-Galactose (Gal)",
                "D-Talose (Tal)",
                "D-Allose (All)",
                "D-Altrose (Alt)",
                "D-Idose (Ido)",
                "D-Gulose (Gul)",
                "L-Glucose",
                "L-Mannose",
                "L-Galactose",
                "L-Talose",
                "L-Allose",
                "L-Altrose",
                "L-Idose",
                "L-Gulose",
                "D-Fructose (Fru)",
                "D-Psicose (Psi)",
                "D-Sorbose (Sor)",
                "D-Tagatose (Tag)",
                "L-Fructose",
                "L-Psicose",
                "L-Sorbose",
                "L-Tagatose"
            ],
            "mismatches": [],
            "true_referents": [
                "5-dehydro-D-fructose",
                "D-allose",
                "D-altrose",
                "D-fructose",
                "D-galactose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-sorbose",
                "D-sorbose 1-phosphate",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-altrose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-idose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-sorbose 1-phosphate",
                "L-tagatose",
                "L-talose",
                "alpha-L-galactose",
                "alpha-L-gulose",
                "beta-L-allose",
                "beta-L-glucose",
                "beta-L-mannose",
                "keto-D-tagatose",
                "keto-L-fructose",
                "keto-L-tagatose",
                "psicose",
                "tagatose"
            ],
            "TP": 24,
            "FP": 0,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Rhamnose (Rha)",
            "Fucose (Fuc)",
            "Idose (Ido)",
            "Gulose (Gul)",
            "Talose (Tal)",
            "Altrose (Alt)",
            "Allose (All)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Ribulose (Rbu)",
            "Xylulose (Xyl)",
            "Arabinose (Ara)",
            "Lyxose (Lyx)",
            "Ribose (Rib)",
            "Xylose (Xyl)",
            "Allose (All)",
            "Erythrulose (Ery)",
            "Erythrose (Ery)",
            "Threose (Thr)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Rhamnose (Rha)",
                "Fucose (Fuc)",
                "Idose (Ido)",
                "Gulose (Gul)",
                "Talose (Tal)",
                "Altrose (Alt)",
                "Allose (All)",
                "Psicose (Psi)",
                "Sorbose (Sor)",
                "Tagatose (Tag)"
            ],
            "mismatches": [
                "Ribulose (Rbu)",
                "Xylulose (Xyl)",
                "Arabinose (Ara)",
                "Lyxose (Lyx)",
                "Ribose (Rib)",
                "Xylose (Xyl)",
                "Erythrulose (Ery)",
                "Erythrose (Ery)",
                "Threose (Thr)"
            ],
            "true_referents": [
                "1,5-anhydro-D-erythro-hex-1-en-3-ulose",
                "1-deoxy-D-threo-hexo-2,5-diulose 6-phosphate",
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "D-Thevetose",
                "D-allose",
                "D-altrose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-rhamnose",
                "D-ribo-Hexos-3-ulose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-fructose",
                "L-fucose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-idose",
                "L-mannose",
                "L-psicose",
                "L-rhamnose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "L-xylo-3-hexulose",
                "L-xylo-hexos-2-ulose",
                "allose",
                "altrose",
                "arabidopside A",
                "beta-D-galactose",
                "beta-L-allose",
                "deoxyglucose",
                "eriodictyol 7-O-beta-D-glucopyranoside",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "psicose",
                "rhamnose",
                "rubiarbonol A 3-O-beta-D-glucopyranosyl-(1->2)-beta-D-glucopyranoside",
                "sorbose",
                "tagatose",
                "talose",
                "xylo-hexos-2-ulose"
            ],
            "TP": 14,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Allose (All)",
            "Altrose (Alt)",
            "Idose (Ido)",
            "Gulose (Gul)",
            "Talose (Tal)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Erythrulose (Ery)",
            "Ribulose (Rbu)",
            "Xylulose (Xul)",
            "Sedoheptulose (Sed)",
            "Erythrulose (Ery)",
            "Glyceraldehyde (Gla)",
            "Dihydroxyacetone (DHA)",
            "Threose (Thr)",
            "Erythrulose (Ery)",
            "Erythritol (Ert)",
            "Ribitol (Rbt)",
            "Arabitol (Abt)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Allose (All)",
                "Altrose (Alt)",
                "Idose (Ido)",
                "Gulose (Gul)",
                "Talose (Tal)",
                "Psicose (Psi)",
                "Sorbose (Sor)",
                "Tagatose (Tag)"
            ],
            "mismatches": [
                "Erythrulose (Ery)",
                "Ribulose (Rbu)",
                "Xylulose (Xul)",
                "Sedoheptulose (Sed)",
                "Glyceraldehyde (Gla)",
                "Dihydroxyacetone (DHA)",
                "Threose (Thr)",
                "Erythritol (Ert)",
                "Ribitol (Rbt)",
                "Arabitol (Abt)"
            ],
            "true_referents": [
                "1-deoxy-D-threo-hexo-2,5-diulose 6-phosphate",
                "13-(beta-D-glucosyloxy)docosanoic acid",
                "2-O-(alpha-D-glucopyranosyl)-D-glycerate",
                "D-Thevetose",
                "D-allose",
                "D-altrose",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "D-xylo-hexos-2-ulose",
                "L-allose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "L-xylo-3-hexulose",
                "allose",
                "altrose",
                "arabidopside B",
                "beta-D-galactose",
                "cladinose",
                "deoxyglucose",
                "ergosteryl 3-beta-D-glucoside",
                "eriodictyol 7-O-beta-D-glucopyranoside",
                "fructose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "psicose",
                "rubiarbonol A 3-O-beta-D-glucopyranosyl-(1->2)-beta-D-glucopyranoside",
                "selaginose",
                "sorbose",
                "tagatose",
                "talose",
                "xylo-hexos-2-ulose"
            ],
            "TP": 12,
            "FP": 10,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Talose (Tal)",
            "Ribose (Rib)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Lyxose (Lyx)",
            "Idose (Ido)",
            "Allose (Allo)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Tagatose (Tag)",
            "Psicose (Psc)",
            "Ribulose (Rib)",
            "Xylulose (Xyl)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Erythrulose (Ery)",
            "Ribulose (Rib)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Talose (Tal)",
                "Idose (Ido)",
                "Allose (Allo)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Tagatose (Tag)",
                "Psicose (Psc)"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Lyxose (Lyx)",
                "Ribulose (Rib)",
                "Xylulose (Xyl)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Erythrulose (Ery)"
            ],
            "true_referents": [
                "1,5-anhydro-D-erythro-hex-1-en-3-ulose",
                "1-deoxy-D-threo-hexo-2,5-diulose 6-phosphate",
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "D-Thevetose",
                "D-allose",
                "D-altrose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-ribo-Hexos-3-ulose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-idose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylo-3-hexulose",
                "L-xylo-hexos-2-ulose",
                "allose",
                "altrose",
                "arabidopside A",
                "beta-D-galactose",
                "beta-L-allose",
                "deoxyglucose",
                "eriodictyol 7-O-beta-D-glucopyranoside",
                "fructose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "psicose",
                "psicose derivative",
                "tagatose",
                "talose",
                "xylo-hexos-2-ulose"
            ],
            "TP": 11,
            "FP": 9,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            "Allose (Als)",
            "Altrose (Alt)",
            "Arabinose (Ara)",
            "Fructose (Fru)",
            "Fucose (Fuc)",
            "Galactose (Gal)",
            "Glucose (Glc)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Lyxose (Lyx)",
            "Mannose (Man)",
            "Psicose (Psi)",
            "Ribose (Rib)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Talose (Tal)",
            "Xylose (Xyl)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Allose (Als)",
                "Altrose (Alt)",
                "Fructose (Fru)",
                "Fucose (Fuc)",
                "Galactose (Gal)",
                "Glucose (Glc)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Mannose (Man)",
                "Psicose (Psi)",
                "Sorbose (Sor)",
                "Tagatose (Tag)",
                "Talose (Tal)"
            ],
            "mismatches": [
                "Arabinose (Ara)",
                "Lyxose (Lyx)",
                "Ribose (Rib)",
                "Xylose (Xyl)"
            ],
            "true_referents": [
                "6-Deoxy-D-arabino-hexos-2-ulose",
                "D-altrose",
                "D-arabino-hex-3-ulose 6-phosphate",
                "D-fructose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-mannose",
                "D-psicose",
                "D-ribo-Hexos-3-ulose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "L-allose",
                "L-fructose",
                "L-fucose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-idose",
                "L-mannose",
                "L-psicose",
                "L-sorbose",
                "L-tagatose",
                "L-talose",
                "L-xylo-3-hexulose",
                "L-xylo-hexos-2-ulose",
                "allose",
                "alpha-L-allose",
                "altrose",
                "arabidopside A",
                "beta-D-galactose",
                "beta-L-allose",
                "deoxyglucose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "mannose",
                "psicose",
                "sorbose",
                "tagatose",
                "talose",
                "xylo-hexos-2-ulose"
            ],
            "TP": 13,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "amazon.titan-text-express-v1",
        "concept": "hexose",
        "domain": "chemistry",
        "response": [
            {
                "Referent": "glucose",
                "Canonical name": "Glucose"
            },
            {
                "Referent": "galactose",
                "Canonical name": "Galactose"
            },
            {
                "Referent": "fructose",
                "Canonical name": "Fructose"
            },
            {
                "Referent": "ribose",
                "Canonical name": "Ribose"
            },
            {
                "Referent": "deoxyribose",
                "Canonical name": "Deoxyribose"
            }
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "glucose",
                "fructose"
            ],
            "mismatches": [
                "galactose",
                "ribose",
                "deoxyribose"
            ],
            "true_referents": [
                "(beta-D-glucopyranosyloxymethyl)deoxyuridine",
                "2-deoxy-D-glucose",
                "3,6-di-O-methyl-beta-D-glucose",
                "D-fructose",
                "alpha-D-galactosyl-(1->3)-D-galactose",
                "beta-D-galactosyl-(1->3)-beta-D-galactosyl-(1->4)-beta-D-glucoside",
                "deoxyglucose",
                "fructose",
                "glucose"
            ],
            "TP": 2,
            "FP": 3,
            "FN": 0
        }
    }
]