[
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Ribose (Rbo)",
            "Deoxyribose (dRbo)",
            "Arabinose (Ara)",
            "Xylose (Xyl)",
            "Lyxose (Lyx)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Hexitol (Hex)",
            "Sorbitol (Sor)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Erythrulose (Eryr)",
            "Talitol (Tal)",
            "Xylitol (Xyl)",
            "Rhamnose (Rha)",
            "Fucose (Fuc)",
            "Lyxose (Lyx)",
            "Psicose (Psi)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Ribose (Rbo)",
                "Arabinose (Ara)",
                "Xylose (Xyl)",
                "Lyxose (Lyx)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Erythrulose (Eryr)",
                "Rhamnose (Rha)",
                "Fucose (Fuc)",
                "Psicose (Psi)"
            ],
            "mismatches": [
                "Deoxyribose (dRbo)",
                "Hexitol (Hex)",
                "Sorbitol (Sor)",
                "Talitol (Tal)",
                "Xylitol (Xyl)"
            ],
            "true_referents": [
                "1,5-anhydrohexitol",
                "1-Deoxy-1-(heptylamino)hexitol",
                "1-S-Hexyl-1-thiopentitol",
                "D-altrose",
                "D-erythrose",
                "D-erythrulose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-psicose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "beta-L-talopyranose",
                "deoxyribulose phosphate",
                "erythrose",
                "erythrulose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbopyranose",
                "sorbose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 18,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "phi-v4",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Lyxose (Lyx)",
            "Arabinose (Ara)",
            "Xylose (Xyl)",
            "Mannose (Man)",
            "Talose (Tal)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Allulose (All)",
            "Tagatose (Tag)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Rhamnose (Rha)",
            "Lyxose (Lyx)",
            "Fucose (Fuc)",
            "Mannitol (Mannitol)",
            "Ribulose (Ribulose)",
            "Xylulose (Xylulose)",
            "Ribose-5-phosphate (Rib5P)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Ribose (Rib)",
                "Lyxose (Lyx)",
                "Arabinose (Ara)",
                "Xylose (Xyl)",
                "Mannose (Man)",
                "Talose (Tal)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Tagatose (Tag)",
                "Psicose (Psi)",
                "Sorbose (Sor)",
                "Rhamnose (Rha)",
                "Ribulose (Ribulose)",
                "Xylulose (Xylulose)",
                "Ribose-5-phosphate (Rib5P)"
            ],
            "mismatches": [
                "Deoxyribose (dRib)",
                "Allulose (All)",
                "Fucose (Fuc)",
                "Mannitol (Mannitol)"
            ],
            "true_referents": [
                "1,5-anhydro-D-mannitol",
                "1-O-D-glucopyranosyl-D-mannitol",
                "D-Allulose 6-phosphate",
                "D-altrose",
                "D-idose",
                "D-rhamnose",
                "D-ribose 5-phosphate",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "L-xylulose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "xylose",
                "xylulose"
            ],
            "TP": 19,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "mistral-small-instruct-24B",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glyceraldehyde",
            "Dihydroxyacetone",
            "Erythrose",
            "Threose",
            "Ribose",
            "Arabinose",
            "Xylose",
            "Lyxose",
            "Ribulose",
            "Xylulose",
            "Glucose",
            "Mannose",
            "Galactose",
            "Allose",
            "Altrose",
            "Idose",
            "Gulose",
            "Talose",
            "Fructose",
            "Sorbose",
            "Tagatose",
            "Psicose",
            "Turanose",
            "Allulose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glyceraldehyde",
                "Dihydroxyacetone",
                "Erythrose",
                "Threose",
                "Ribose",
                "Arabinose",
                "Xylose",
                "Lyxose",
                "Ribulose",
                "Xylulose",
                "Glucose",
                "Mannose",
                "Galactose",
                "Allose",
                "Altrose",
                "Idose",
                "Gulose",
                "Talose",
                "Fructose",
                "Sorbose",
                "Tagatose",
                "Psicose"
            ],
            "mismatches": [
                "Turanose",
                "Allulose"
            ],
            "true_referents": [
                "D-glyceraldehyde",
                "D-idose",
                "D-sorbose",
                "D-tagatopyranose",
                "D-threose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "Lyxulose",
                "allose",
                "altrose",
                "arabinose",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "erythroses",
                "fructose",
                "galactose",
                "glucose",
                "glucose phosphate",
                "glyceraldehyde",
                "gulopyranose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sorbose",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gemma-3",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Mannose (Man)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Lyxose (Lyx)",
            "Rhamnose (Rha)",
            "Fucose (Fuc)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Psicose (Psi)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Allulose (All)",
            "Altrose (Alt)",
            "Sedulose (Sed)",
            "Epilose (Epi)",
            "Arabitol (Arab)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Ribose (Rib)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Lyxose (Lyx)",
                "Rhamnose (Rha)",
                "Sorbose (Sor)",
                "Tagatose (Tag)",
                "Psicose (Psi)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Altrose (Alt)"
            ],
            "mismatches": [
                "Deoxyribose (dRib)",
                "Fucose (Fuc)",
                "Allulose (All)",
                "Sedulose (Sed)",
                "Epilose (Epi)",
                "Arabitol (Arab)"
            ],
            "true_referents": [
                "1,3-selenazole-4-carboxamide adenine dinucleotide",
                "D-Allulose 6-phosphate",
                "D-altrose",
                "D-erythrose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "aldehydo-arabinose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "epimelibiose",
                "erythrose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose"
            ],
            "TP": 18,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Lyxose (Lyx)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Ribulose (Rul)",
            "Xylulose (Xul)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Allose (All)",
            "Altrose (Alt)",
            "Talose (Tal)",
            "Idose (Ido)",
            "Gulose (Gul)",
            "Dihydroxyacetone (DHA)",
            "Sedoheptulose (Sed)",
            "Psicose (Psi)",
            "Fucose (Fuc)",
            "Turanose (Tur)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Ribose (Rib)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Lyxose (Lyx)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Ribulose (Rul)",
                "Xylulose (Xul)",
                "Sorbose (Sor)",
                "Tagatose (Tag)",
                "Allose (All)",
                "Altrose (Alt)",
                "Talose (Tal)",
                "Idose (Ido)",
                "Gulose (Gul)",
                "Dihydroxyacetone (DHA)",
                "Sedoheptulose (Sed)",
                "Psicose (Psi)",
                "Fucose (Fuc)"
            ],
            "mismatches": [
                "Turanose (Tur)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrose",
                "D-idose",
                "D-tagatopyranose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "L-xylulose",
                "allose",
                "altrose",
                "arabinose",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulopyranose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sedoheptulose",
                "sedoheptulose derivative",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4o-mini",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (C6H12O6)",
            "Fructose (C6H12O6)",
            "Galactose (C6H12O6)",
            "Ribose (C5H10O5)",
            "Deoxyribose (C5H10O4)",
            "Xylose (C5H10O5)",
            "Arabinose (C5H10O5)",
            "Mannose (C6H12O6)",
            "Sorbitol (C6H14O6)",
            "Mannitol (C6H14O6)",
            "Erythrose (C4H8O4)",
            "Threose (C4H8O4)",
            "Ribulose (C5H10O5)",
            "Xylulose (C5H10O5)",
            "Lactose (C12H22O11) - note: not a referent since it hydrolyzes",
            "Maltose (C12H22O11) - note: not a referent since it hydrolyzes",
            "Sucrose (C12H22O11) - note: not a referent since it hydrolyzes",
            "Cellobiose (C12H22O11) - note: not a referent since it hydrolyzes",
            "Trehalose (C12H22O11) - note: not a referent since it hydrolyzes",
            "D-Glucose (D-Glc)",
            "D-Fructose (D-Fru)",
            "D-Galactose (D-Gal)",
            "D-Ribose (D-Rib)",
            "D-Deoxyribose (D-2-Deoxy-D-ribose)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (C6H12O6)",
                "Fructose (C6H12O6)",
                "Galactose (C6H12O6)",
                "Ribose (C5H10O5)",
                "Deoxyribose (C5H10O4)",
                "Xylose (C5H10O5)",
                "Arabinose (C5H10O5)",
                "Mannose (C6H12O6)",
                "Erythrose (C4H8O4)",
                "Threose (C4H8O4)",
                "Ribulose (C5H10O5)",
                "Xylulose (C5H10O5)",
                "D-Glucose (D-Glc)",
                "D-Fructose (D-Fru)",
                "D-Galactose (D-Gal)",
                "D-Ribose (D-Rib)"
            ],
            "mismatches": [
                "Sorbitol (C6H14O6)",
                "Mannitol (C6H14O6)",
                "Lactose (C12H22O11) - note: not a referent since it hydrolyzes",
                "Maltose (C12H22O11) - note: not a referent since it hydrolyzes",
                "Sucrose (C12H22O11) - note: not a referent since it hydrolyzes",
                "Cellobiose (C12H22O11) - note: not a referent since it hydrolyzes",
                "Trehalose (C12H22O11) - note: not a referent since it hydrolyzes",
                "D-Deoxyribose (D-2-Deoxy-D-ribose)"
            ],
            "true_referents": [
                "1,5-anhydro-D-fructose",
                "1,5-anhydro-D-mannitol",
                "1-O-D-glucopyranosyl-D-mannitol",
                "1-deoxy-D-xylulose",
                "2-deoxy-D-ribose",
                "3,6-anhydro-D-glucose",
                "3,6-di-O-methyl-beta-D-glucose",
                "D-Fructose 1",
                "D-erythrose",
                "D-fructose",
                "D-galactose",
                "D-glucose",
                "D-ribose",
                "D-ribose 1-phosphate",
                "D-sorbose",
                "D-threose",
                "D-xylose",
                "Deoxyribose 5-phosphate",
                "L-arabinose",
                "L-galactose",
                "L-mannose",
                "L-ribose",
                "alpha,beta-trehalose",
                "arabinose",
                "beta-cellotriose",
                "cellotriose",
                "deoxyglucose",
                "erythrose",
                "galactose",
                "glucose",
                "hexose",
                "mannose",
                "ribose",
                "ribulose",
                "ribulose 5-phosphate",
                "sorbose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 16,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-4-32k",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (C6H12O6)",
            "Fructose (C6H12O6)",
            "Galactose (C6H12O6)",
            "Mannose (C6H12O6)",
            "Ribose (C5H10O5)",
            "Deoxyribose (C5H10O5)",
            "Xylose (C5H10O5)",
            "Arabinose (C5H10O5)",
            "Lyxose (C5H10O5)",
            "Ribulose (C5H10O5)",
            "Xylulose (C5H10O5)",
            "Erythrose (C4H8O4)",
            "Threose (C4H8O4)",
            "Erythrulose (C4H8O4)",
            "Psicose (C6H12O6)",
            "Sorbose (C6H12O6)",
            "Tagatose (C6H12O6)",
            "Allose (C6H12O6)",
            "Altrose (C6H12O6)",
            "Gulose (C6H12O6)",
            "Idose (C6H12O6)",
            "Talose (C6H12O6)",
            "Sedheptulose (C7H14O7)",
            "Mannoheptulose (C7H14O7)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (C6H12O6)",
                "Fructose (C6H12O6)",
                "Galactose (C6H12O6)",
                "Mannose (C6H12O6)",
                "Ribose (C5H10O5)",
                "Xylose (C5H10O5)",
                "Arabinose (C5H10O5)",
                "Lyxose (C5H10O5)",
                "Ribulose (C5H10O5)",
                "Xylulose (C5H10O5)",
                "Erythrose (C4H8O4)",
                "Threose (C4H8O4)",
                "Erythrulose (C4H8O4)",
                "Psicose (C6H12O6)",
                "Sorbose (C6H12O6)",
                "Talose (C6H12O6)",
                "Mannoheptulose (C7H14O7)"
            ],
            "mismatches": [
                "Deoxyribose (C5H10O5)",
                "Tagatose (C6H12O6)",
                "Allose (C6H12O6)",
                "Altrose (C6H12O6)",
                "Gulose (C6H12O6)",
                "Idose (C6H12O6)",
                "Sedheptulose (C7H14O7)"
            ],
            "true_referents": [
                "1,5-anhydro-D-fructose",
                "1-deoxy-D-xylulose",
                "2,4-diacetamido-2,4,6-trideoxy-beta-L-altrose",
                "3,6-anhydro-D-glucose",
                "D-erythrose",
                "D-erythrulose",
                "D-fructose",
                "D-lyxose",
                "D-manno-heptulose",
                "D-sorbose",
                "D-threose",
                "D-xylose",
                "Deoxyribose 5-phosphate",
                "L-allose",
                "L-arabinose",
                "L-galactose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribose",
                "L-talose",
                "aldehydo-D-gulose",
                "aldehydo-D-idose",
                "allose",
                "arabinose",
                "deoxyribonucleotide",
                "erythrose",
                "erythrulose",
                "galactose",
                "glucose",
                "manno-heptulose",
                "mannose",
                "psicose",
                "ribose",
                "ribulose",
                "ribulose 5-phosphate",
                "sedoheptulose 7-phosphate",
                "sorbose",
                "tagatose derivative",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 17,
            "FP": 7,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "gpt-35-turbo-16k",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose",
            "Fructose",
            "Galactose",
            "Mannose",
            "Ribose",
            "Xylose",
            "Arabinose",
            "Erythrose",
            "Threose",
            "Glyceraldehyde",
            "Dihydroxyacetone",
            "Lyxose",
            "Allose",
            "Altrose",
            "Glucosamine",
            "Mannosamine",
            "Galactosamine",
            "Idose",
            "Talose",
            "Sedoheptulose",
            "Deoxyribose",
            "Rhamnose",
            "Fucose",
            "Sorbose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose",
                "Fructose",
                "Galactose",
                "Mannose",
                "Ribose",
                "Xylose",
                "Arabinose",
                "Erythrose",
                "Threose",
                "Glyceraldehyde",
                "Dihydroxyacetone",
                "Lyxose",
                "Allose",
                "Altrose",
                "Mannosamine",
                "Galactosamine",
                "Idose",
                "Talose",
                "Sedoheptulose",
                "Rhamnose",
                "Fucose",
                "Sorbose"
            ],
            "mismatches": [
                "Glucosamine",
                "Deoxyribose"
            ],
            "true_referents": [
                "D-(+)-Galactosamine",
                "D-glyceraldehyde",
                "D-idose",
                "D-mannosamine",
                "D-rhamnose",
                "D-sorbose",
                "D-threose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-lyxose",
                "L-mannose",
                "L-talose",
                "allose",
                "altrose",
                "arabinose",
                "beta-D-glucosamine",
                "deoxyribonucleotide",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "erythroses",
                "fructose",
                "fucose",
                "galactose",
                "glucosamine phosphate",
                "glucosamine sulfate",
                "glucose",
                "glucose phosphate",
                "glyceraldehyde",
                "idose",
                "lyxose",
                "mannose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sedoheptulose",
                "sedoheptulose derivative",
                "sorbose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "o1-mini",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Ribulose (Rub)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Allose (All)",
            "Altrose (Alt)",
            "Talose (Tal)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Psicose (Psi)",
            "Sorbose (Sorb)",
            "Tagatose (Tag)",
            "Sedoheptulose (S7P)",
            "Heptulose (Hep)",
            "Lyxose (Lyx)",
            "Fuculose (Fuc)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Ribulose (Rub)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Allose (All)",
                "Altrose (Alt)",
                "Talose (Tal)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Psicose (Psi)",
                "Tagatose (Tag)",
                "Lyxose (Lyx)"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Deoxyribose (dRib)",
                "Sorbose (Sorb)",
                "Sedoheptulose (S7P)",
                "Heptulose (Hep)",
                "Fuculose (Fuc)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrose",
                "D-idose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-fuculose",
                "L-fuculose 1-phosphate",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrose",
                "fructose",
                "galactose",
                "glucose",
                "gulose",
                "heptose",
                "idose",
                "lyxose",
                "manno-heptulose",
                "mannose",
                "psicose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sedoheptulose 7-phosphate",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose"
            ],
            "TP": 17,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Ribose",
            "Deoxyribose",
            "Erythrose",
            "Threose",
            "Lyxose",
            "Allose",
            "Altrose",
            "Gulose",
            "Idose",
            "Talose",
            "Psicose",
            "Sorbose",
            "Tagatose",
            "Rhamnose",
            "Fucose",
            "Quinovose",
            "Digitoxose",
            "Dihydroxyacetone"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Ribose",
                "Erythrose",
                "Threose",
                "Lyxose",
                "Allose",
                "Altrose",
                "Gulose",
                "Idose",
                "Talose",
                "Psicose",
                "Sorbose",
                "Tagatose",
                "Rhamnose",
                "Fucose",
                "Quinovose",
                "Digitoxose",
                "Dihydroxyacetone"
            ],
            "mismatches": [
                "Deoxyribose"
            ],
            "true_referents": [
                "D-idose",
                "D-quinovose",
                "D-rhamnose",
                "D-sorbose",
                "D-threose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribonucleotide",
                "digitalose",
                "digitoxose",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "erythroses",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "quinovose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "tagatose",
                "talose",
                "threose",
                "xylose"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Xylose (Xyl)",
            "Ribose (Rib)",
            "Arabinose (Ara)",
            "Lyxose (Lyx)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Dihydroxyacetone (DHA)",
            "Erythrose",
            "Threose",
            "Glyceraldehyde (GA)",
            "Erythrulose",
            "Ribulose",
            "Xylulose",
            "Sedoheptulose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Ribose (Rib)",
                "Arabinose (Ara)",
                "Lyxose (Lyx)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Psicose (Psi)",
                "Tagatose (Tag)",
                "Dihydroxyacetone (DHA)",
                "Erythrose",
                "Threose",
                "Glyceraldehyde (GA)",
                "Erythrulose",
                "Ribulose",
                "Xylulose",
                "Sedoheptulose"
            ],
            "mismatches": [
                "Sorbose (Sor)"
            ],
            "true_referents": [
                "D-altrose",
                "D-glyceraldehyde",
                "D-idose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-erythrulose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "erythroses",
                "erythrulose",
                "fructose",
                "galactose",
                "glucose",
                "glyceraldehyde",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sedoheptulose",
                "sedoheptulose derivative",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Arabinose (Ara)",
            "Xylose (Xyl)",
            "Erythrose",
            "Threose",
            "Glyceraldehyde",
            "Dihydroxyacetone",
            "Erythrulose",
            "Ribulose",
            "Xylulose",
            "Psicose",
            "Sorbose",
            "Tagatose",
            "Allose",
            "Altrose",
            "Mannose (Man)",
            "Idose",
            "Gulose",
            "Talose",
            "Fucose (Fuc)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Arabinose (Ara)",
                "Xylose (Xyl)",
                "Erythrose",
                "Threose",
                "Glyceraldehyde",
                "Dihydroxyacetone",
                "Erythrulose",
                "Ribulose",
                "Xylulose",
                "Psicose",
                "Sorbose",
                "Tagatose",
                "Allose",
                "Altrose",
                "Mannose (Man)",
                "Idose",
                "Gulose",
                "Talose"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Deoxyribose (dRib)",
                "Fucose (Fuc)"
            ],
            "true_referents": [
                "D-glyceraldehyde",
                "D-idose",
                "D-sorbose",
                "D-threose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-erythrulose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "erythroses",
                "erythrulose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "glyceraldehyde",
                "gulose",
                "idose",
                "mannose",
                "psicose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sorbose",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Erythrulose (Ery)",
            "Threose (Thr)",
            "Erythritol (Ert)",
            "Erythritol-4-phosphate (E4P)",
            "Glyceraldehyde (Gla)",
            "Dihydroxyacetone (DHA)",
            "Erythrulose-1-phosphate (E1P)",
            "Threose-4-phosphate (T4P)",
            "Glyceraldehyde-3-phosphate (G3P)",
            "Dihydroxyacetone phosphate (DHAP)",
            "Erythrulose-4-phosphate (E4P)",
            "Threose-1,4-bisphosphate (T1,4BP)",
            "Glyceraldehyde-1,3-bisphosphate (G1,3BP)",
            "Dihydroxyacetone-3-phosphate (DHA3P)",
            "Erythrulose-1,4-bisphosphate (E1,4BP)",
            "Threose-1,4,5-trisphosphate (T1,4,5TP)",
            "Glyceraldehyde-1,3,4-trisphosphate (G1,3,4TP)",
            "Dihydroxyacetone-1,3-bisphosphate (DHA1,3BP)",
            "Erythrulose-1,4,5-trisphosphate (E1,4,5TP)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Ribose (Rib)",
                "Erythrulose (Ery)",
                "Threose (Thr)",
                "Glyceraldehyde (Gla)",
                "Dihydroxyacetone (DHA)",
                "Erythrulose-1-phosphate (E1P)",
                "Glyceraldehyde-3-phosphate (G3P)",
                "Dihydroxyacetone phosphate (DHAP)",
                "Erythrulose-4-phosphate (E4P)"
            ],
            "mismatches": [
                "Erythritol (Ert)",
                "Erythritol-4-phosphate (E4P)",
                "Threose-4-phosphate (T4P)",
                "Threose-1,4-bisphosphate (T1,4BP)",
                "Glyceraldehyde-1,3-bisphosphate (G1,3BP)",
                "Dihydroxyacetone-3-phosphate (DHA3P)",
                "Erythrulose-1,4-bisphosphate (E1,4BP)",
                "Threose-1,4,5-trisphosphate (T1,4,5TP)",
                "Glyceraldehyde-1,3,4-trisphosphate (G1,3,4TP)",
                "Dihydroxyacetone-1,3-bisphosphate (DHA1,3BP)",
                "Erythrulose-1,4,5-trisphosphate (E1,4,5TP)"
            ],
            "true_referents": [
                "D-erythrulose",
                "D-threose",
                "D-threose 4-phosphate",
                "L-erythrulose 4-phosphate",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-glyceraldehyde",
                "L-mannose",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrulose",
                "erythrulose 1-phosphate",
                "fructose",
                "galactose",
                "glucose",
                "glyceraldehyde",
                "glyceraldehyde 3-phosphate",
                "mannose",
                "ribose",
                "ribose phosphate",
                "threose",
                "threose phosphate"
            ],
            "TP": 13,
            "FP": 11,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Trehalose",
            "Ribose",
            "Arabinose",
            "Xylose",
            "Lyxose",
            "Allose",
            "Altrose",
            "Idose",
            "Glucose",
            "Mannose",
            "Rhamnose",
            "Fucose",
            "Aldose",
            "Ketose",
            "Erythrose",
            "Threose",
            "Ribulose",
            "Xylulose",
            "Ribulose-5-phosphate",
            "Erythritol",
            "Threitol",
            "Ribitol",
            "Xylitol"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Ribose",
                "Arabinose",
                "Xylose",
                "Lyxose",
                "Allose",
                "Altrose",
                "Idose",
                "Glucose",
                "Mannose",
                "Rhamnose",
                "Fucose",
                "Aldose",
                "Ketose",
                "Erythrose",
                "Threose",
                "Ribulose",
                "Xylulose",
                "Ribulose-5-phosphate"
            ],
            "mismatches": [
                "Trehalose",
                "Erythritol",
                "Threitol",
                "Ribitol",
                "Xylitol"
            ],
            "true_referents": [
                "D-aldose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-lyxose",
                "L-mannose",
                "L-ribulose",
                "L-threonyl-AMP",
                "aldose",
                "aldose derivative",
                "allose",
                "alpha,beta-trehalose",
                "altrose",
                "arabinose",
                "erythrose",
                "erythroses",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "glucose phosphate",
                "idose",
                "ketose",
                "ketose derivative",
                "lyxose",
                "maltitol",
                "mannose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "ribulose 5-phosphate",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 20,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Fructose (Fru)",
            "D-Glucose (Glc)",
            "D-Galactose (Gal)",
            "L-Fucose (Fuc)",
            "D-Xylose (Xyl)",
            "L-Arabinose (Ara)",
            "D-Lyxo-Hexose (Lyx)",
            "D-Allose (All)",
            "D-Altrose (Alt)",
            "D-Gulose (Gul)",
            "D-Idose (Ido)",
            "D-Talose (Tal)",
            "2-Deoxy-D-ribose (dRib)",
            "6-Deoxy-L-Talose (6dTal)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Fructose (Fru)",
                "D-Glucose (Glc)",
                "D-Galactose (Gal)",
                "L-Fucose (Fuc)",
                "D-Xylose (Xyl)",
                "L-Arabinose (Ara)",
                "D-Allose (All)",
                "D-Altrose (Alt)",
                "D-Gulose (Gul)",
                "D-Idose (Ido)",
                "D-Talose (Tal)",
                "2-Deoxy-D-ribose (dRib)"
            ],
            "mismatches": [
                "D-Lyxo-Hexose (Lyx)",
                "6-Deoxy-L-Talose (6dTal)"
            ],
            "true_referents": [
                "2-deoxy-D-ribose",
                "D-allose",
                "D-altrose",
                "D-galactose",
                "D-glucose",
                "D-gulose",
                "D-idose",
                "D-lyxose",
                "D-ribose",
                "D-talose",
                "D-xylose",
                "D-xylulose",
                "L-arabinose",
                "L-fructose",
                "L-fucose",
                "L-lyxose",
                "arabinose",
                "dTDP-6-deoxy-beta-L-talose",
                "fructose"
            ],
            "TP": 12,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents-from-selection-criteria",
        "responder": "amazon.titan-text-express-v1",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "glucose",
            "galactose",
            "fructose",
            "ribose",
            "xylose",
            "arabinose",
            "lyxose",
            "allose",
            "altrose",
            "idose",
            "psicose",
            "sorbose",
            "tagatose",
            "gulose",
            "gentiobiose",
            "galactosamine",
            "glucosamine",
            "glucuronolactone",
            "galacturonolactone",
            "mannosamine",
            "iduronic acid",
            "glucuronic acid"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "glucose",
                "galactose",
                "fructose",
                "ribose",
                "xylose",
                "arabinose",
                "lyxose",
                "allose",
                "altrose",
                "idose",
                "psicose",
                "sorbose",
                "tagatose",
                "gulose",
                "iduronic acid",
                "glucuronic acid",
                "mannosamine"
            ],
            "mismatches": [
                "gentiobiose",
                "galactosamine",
                "glucosamine",
                "glucuronolactone",
                "galacturonolactone"
            ],
            "true_referents": [
                "3,6-anhydro-L-galactonic acid",
                "D-(+)-Galactosamine",
                "D-galacturono-1,4-lactone",
                "D-glucurono-6,2-lactone",
                "D-glucurono-6,3-lactone",
                "D-idose",
                "D-mannosamine",
                "D-sorbose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucuronic acid",
                "L-gulose",
                "L-iduronic acid",
                "L-lyxose",
                "L-psicose",
                "L-tagatose",
                "allose",
                "altrose",
                "arabinose",
                "beta-D-glucosamine",
                "fructose",
                "galactose",
                "galacturonic acid",
                "gentiobiitol",
                "glucosamine phosphate",
                "glucosamine sulfate",
                "glucose",
                "glucose phosphate",
                "glucuronic acid",
                "glucuronic acids",
                "gulose",
                "idose",
                "iduronic acid",
                "iduronic acids",
                "lyxose",
                "psicose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "tagatose",
                "xylose",
                "xylulose"
            ],
            "TP": 17,
            "FP": 5,
            "FN": 0
        }
    }
]