[
    {
        "test": "limited-list-referents",
        "responder": "qwen-v2.5-14b-instruct",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Ribose (Rbo)",
            "Deoxyribose (dRbo)",
            "Arabinose (Ara)",
            "Xylose (Xyl)",
            "Lyxose (Lyl)",
            "Rhamnose (Rha)",
            "Talose (Tal)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Tagatose (Tag)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Ribulose (Rbu)",
            "Xylulose (Xylu)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Erythrulose (Eryr)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Ribose (Rbo)",
                "Arabinose (Ara)",
                "Xylose (Xyl)",
                "Lyxose (Lyl)",
                "Rhamnose (Rha)",
                "Talose (Tal)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Tagatose (Tag)",
                "Psicose (Psi)",
                "Sorbose (Sor)",
                "Ribulose (Rbu)",
                "Xylulose (Xylu)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Erythrulose (Eryr)"
            ],
            "mismatches": [
                "Deoxyribose (dRbo)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrose",
                "D-erythrulose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "D-xylulose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrose",
                "erythrulose",
                "fructose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 21,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "phi-v4",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Arabinose (Ara)",
            "Xylose (Xyl)",
            "Lyxose (Lyx)",
            "Talose (Tal)",
            "Idose (Ido)",
            "Gulose (Gul)",
            "Altrose (Alt)",
            "Allose (All)",
            "Tagatose (Tag)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Ribulose (Ribul)",
            "Xylulose (Xylul)",
            "Lyxulose (Lyxul)",
            "Glucuronic acid (GlcA)",
            "Galacturonic acid (GalA)",
            "Mannuronic acid (ManA)",
            "Rhamnose (Rha)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Ribose (Rib)",
                "Arabinose (Ara)",
                "Xylose (Xyl)",
                "Lyxose (Lyx)",
                "Talose (Tal)",
                "Idose (Ido)",
                "Gulose (Gul)",
                "Altrose (Alt)",
                "Allose (All)",
                "Tagatose (Tag)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Ribulose (Ribul)",
                "Xylulose (Xylul)",
                "Lyxulose (Lyxul)",
                "Glucuronic acid (GlcA)",
                "Galacturonic acid (GalA)",
                "Mannuronic acid (ManA)",
                "Rhamnose (Rha)"
            ],
            "mismatches": [
                "Deoxyribose (dRib)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-glucuronic acid",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "L-xylulose",
                "Lyxulose",
                "allose",
                "altrose",
                "arabinose",
                "beta-D-galacturonic acid",
                "deoxyribulose phosphate",
                "erythrose",
                "fructose",
                "galactose",
                "galacturonic acid",
                "galacturonic acids",
                "glucose",
                "glucuronic acid",
                "glucuronic acids",
                "gulose",
                "hexuronic acid",
                "idose",
                "lyxose",
                "mannose",
                "mannuronic acid",
                "mannuronic acids",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 23,
            "FP": 1,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "mistral-small-instruct-24B",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (D-Glucose)",
            "Fructose (D-Fructose)",
            "Galactose (D-Galactose)",
            "Ribose (D-Ribose)",
            "Deoxyribose (2-Deoxy-D-Ribose)",
            "Mannose (D-Mannose)",
            "Xylose (D-Xylose)",
            "Arabinose (D-Arabinose)",
            "Lyxose (D-Lyxose)",
            "Allose (D-Allose)",
            "Altrose (D-Altrose)",
            "Gulose (D-Gulose)",
            "Idose (D-Idose)",
            "Talose (D-Talose)",
            "Tagatose (D-Tagatose)",
            "Sorbose (D-Sorbose)",
            "Erythrose",
            "Threose",
            "Erythrulose",
            "Ribulose",
            "Xylulose",
            "Sedoheptulose",
            "Glyceraldehyde",
            "Dihydroxyacetone"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "D-glucose",
                "D-fructose",
                "D-galactose",
                "D-mannose",
                "D-xylose",
                "D-arabinose",
                "D-lyxose",
                "D-allose",
                "D-altrose",
                "D-gulose",
                "D-idose",
                "D-talose",
                "D-tagatose",
                "D-sorbose",
                "erythrose",
                "threose",
                "erythrulose",
                "ribulose",
                "xylulose",
                "sedoheptulose",
                "glyceraldehyde",
                "dihydroxyacetone"
            ],
            "mismatches": [
                "Deoxyribose (2-Deoxy-D-Ribose)",
                "Ribose (D-Ribose)"
            ],
            "true_referents": [
                "2-deoxyribose phosphate",
                "D-Fructose 1",
                "D-allose",
                "D-altrose",
                "D-arabinose",
                "D-fructose",
                "D-galactose",
                "D-glucose",
                "D-glyceraldehyde",
                "D-gulose",
                "D-idose",
                "D-lyxose",
                "D-mannose",
                "D-ribose",
                "D-sorbose",
                "D-tagatose",
                "D-talose",
                "D-threose",
                "D-xylose",
                "D-xylulose",
                "L-erythrulose",
                "L-lyxose",
                "L-ribulose",
                "arabinose",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "erythroses",
                "erythrulose",
                "glyceraldehyde",
                "ribose",
                "ribulose",
                "sedoheptulose",
                "sedoheptulose derivative",
                "sorbose",
                "tagatose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gemma-3",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Lyxose (Lxy)",
            "Rhamnose (Rha)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Psicose (Psi)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Erythrulose (Eryth)",
            "2-Deoxy-D-glucose",
            "3-Deoxy-D-glucose",
            "Fucose (Fuc)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Lyxose (Lxy)",
                "Rhamnose (Rha)",
                "Sorbose (Sor)",
                "Tagatose (Tag)",
                "Psicose (Psi)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Erythrulose (Eryth)",
                "2-Deoxy-D-glucose"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Deoxyribose (dRib)",
                "3-Deoxy-D-glucose",
                "Fucose (Fuc)"
            ],
            "true_referents": [
                "2-deoxy-D-glucose",
                "3-dehydro-D-glucose",
                "D-altrose",
                "D-erythrose",
                "D-erythrulose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrose",
                "erythrulose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose"
            ],
            "TP": 20,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Lyxose",
            "Allose",
            "Altrose",
            "Gulose",
            "Idose",
            "Talose",
            "Erythrose",
            "Threose",
            "Ribulose",
            "Xylulose",
            "Sorbose",
            "Tagatose",
            "Fucose (Fuc)",
            "Rhamnose (Rha)",
            "Turanose",
            "Sedheptulose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Lyxose",
                "Allose",
                "Altrose",
                "Gulose",
                "Idose",
                "Talose",
                "Erythrose",
                "Threose",
                "Ribulose",
                "Xylulose",
                "Sorbose",
                "Tagatose",
                "Rhamnose (Rha)"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Deoxyribose (dRib)",
                "Fucose (Fuc)",
                "Turanose",
                "Sedheptulose"
            ],
            "true_referents": [
                "D-idose",
                "D-rhamnose",
                "D-sorbose",
                "D-tagatopyranose",
                "D-threose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrose",
                "erythroses",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulopyranose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sedoheptulose derivative",
                "sorbose",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 19,
            "FP": 5,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4o-mini",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (C6H12O6)",
            "Fructose (C6H12O6)",
            "Galactose (C6H12O6)",
            "Ribose (C5H10O5)",
            "Deoxyribose (C5H10O4)",
            "Mannose (C6H12O6)",
            "Xylose (C5H10O5)",
            "Arabinose (C5H10O5)",
            "Sorbose (C6H12O6)",
            "Rhamnose (C6H12O5)",
            "Allose (C6H12O6)",
            "Altrose (C6H12O6)",
            "Talose (C6H12O6)",
            "Idose (C6H12O6)",
            "Lactose (C12H22O11)",
            "Trehalose (C12H22O11)",
            "Cellobiose (C12H22O11)",
            "Melezitose (C12H22O11)",
            "Fucose (C6H12O5)",
            "Tagatose (C6H12O6)",
            "Erythrose (C4H8O4)",
            "Threose (C4H8O4)",
            "Lyxose (C5H10O5)",
            "Xylulose (C5H10O5)",
            "Ribulose (C5H10O5)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (C6H12O6)",
                "Fructose (C6H12O6)",
                "Galactose (C6H12O6)",
                "Ribose (C5H10O5)",
                "Mannose (C6H12O6)",
                "Xylose (C5H10O5)",
                "Arabinose (C5H10O5)",
                "Sorbose (C6H12O6)",
                "Allose (C6H12O6)",
                "Fucose (C6H12O5)",
                "Tagatose (C6H12O6)",
                "Erythrose (C4H8O4)",
                "Threose (C4H8O4)",
                "Lyxose (C5H10O5)",
                "Xylulose (C5H10O5)"
            ],
            "mismatches": [
                "Deoxyribose (C5H10O4)",
                "Rhamnose (C6H12O5)",
                "Altrose (C6H12O6)",
                "Talose (C6H12O6)",
                "Idose (C6H12O6)",
                "Lactose (C12H22O11)",
                "Trehalose (C12H22O11)",
                "Cellobiose (C12H22O11)",
                "Melezitose (C12H22O11)",
                "Ribulose (C5H10O5)"
            ],
            "true_referents": [
                "1,5-anhydro-D-fructose",
                "1-deoxy-D-xylulose",
                "2,4-diacetamido-2,4,6-trideoxy-beta-L-altrose",
                "3,4-O-[(1S)-1-carboxyethylidene]-beta-D-galactose",
                "3,4-di-O-methyl-alpha-L-rhamnose",
                "3,6-anhydro-D-glucose",
                "D-erythrose",
                "D-fructose",
                "D-lyxose",
                "D-sorbose",
                "D-threose",
                "D-xylose",
                "Deoxyribose 5-phosphate",
                "L-allose",
                "L-arabinose",
                "L-galactose",
                "L-lyxose",
                "L-mannose",
                "L-ribose",
                "L-talose",
                "aldehydo-D-idose",
                "allose",
                "alpha,beta-trehalose",
                "arabinose",
                "beta-cellotriose",
                "cellotriose",
                "dTDP-5,5-di-C-methyl-beta-L-lyxose",
                "deoxyglucose",
                "erythrose",
                "fucose",
                "galactose",
                "glucose",
                "mannose",
                "ribose",
                "sorbose",
                "tagatose derivative",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 15,
            "FP": 10,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-4-32k",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Rhamnose (Rha)",
            "Fucose (Fuc)",
            "Talose (Tal)",
            "Idose (Ido)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Lyxose (Lyx)",
            "Threose (Thr)",
            "Erythrose (Ery)",
            "Ribulose (Ribul)",
            "Xylulose (Xylul)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Psicose (Psi)",
            "Sedoheptulose (Sed)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Rhamnose (Rha)",
                "Fucose (Fuc)",
                "Talose (Tal)",
                "Idose (Ido)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Lyxose (Lyx)",
                "Threose (Thr)",
                "Erythrose (Ery)",
                "Ribulose (Ribul)",
                "Xylulose (Xylul)",
                "Sorbose (Sor)",
                "Tagatose (Tag)",
                "Psicose (Psi)",
                "Sedoheptulose (Sed)"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Deoxyribose (dRib)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "L-xylulose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sedoheptulose",
                "sedoheptulose derivative",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "gpt-35-turbo-16k",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose",
            "Fructose",
            "Galactose",
            "Mannose",
            "Ribose",
            "Deoxyribose",
            "Xylose",
            "Arabinose",
            "Rhamnose",
            "Erythrose",
            "Threose",
            "Pentose",
            "Hexose",
            "Heptose",
            "Octose",
            "Nonose",
            "Decose",
            "Glyceraldehyde",
            "Dihydroxyacetone",
            "Lactose",
            "Sucrose",
            "Maltose",
            "Trehalose",
            "Cellobiose"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose",
                "Fructose",
                "Galactose",
                "Mannose",
                "Ribose",
                "Xylose",
                "Arabinose",
                "Rhamnose",
                "Erythrose",
                "Threose",
                "Pentose",
                "Hexose",
                "Heptose",
                "Octose",
                "Glyceraldehyde",
                "Dihydroxyacetone"
            ],
            "mismatches": [
                "Deoxyribose",
                "Nonose",
                "Decose",
                "Lactose",
                "Sucrose",
                "Maltose",
                "Trehalose",
                "Cellobiose"
            ],
            "true_referents": [
                "D-glyceraldehyde",
                "D-rhamnose",
                "D-threose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-mannose",
                "allose",
                "alpha,beta-trehalose",
                "arabinose",
                "cellobiotol",
                "deoxyhexose",
                "deoxyribonucleotide",
                "digitalose",
                "dihydroxyacetone",
                "dihydroxyacetone phosphate",
                "erythrose",
                "erythroses",
                "fructose",
                "galactose",
                "glucose",
                "glucose phosphate",
                "glyceraldehyde",
                "heptose",
                "heptose derivative",
                "hexose",
                "idose",
                "maltitol",
                "mannose",
                "octose",
                "octose derivative",
                "pentose",
                "pentose phosphate",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 16,
            "FP": 8,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "o1-mini",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Arabinose (Ara)",
            "Xylose (Xyl)",
            "Lyxose (Lyx)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Allose (All)",
            "Altrose (Alt)",
            "Talose (Tal)",
            "Idose (Ido)",
            "Gulose (Gul)",
            "Sorbose (Sor)",
            "Psicose (Psi)",
            "Tagatose (Tag)",
            "Xylulose (Xylu)",
            "Ribulose (Rub)",
            "Deoxyribose (dRib)",
            "Levulose (Lev)",
            "Ulose (Ulo)",
            "Fuculose (Fuc)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Ribose (Rib)",
                "Arabinose (Ara)",
                "Xylose (Xyl)",
                "Lyxose (Lyx)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Allose (All)",
                "Altrose (Alt)",
                "Talose (Tal)",
                "Idose (Ido)",
                "Gulose (Gul)",
                "Sorbose (Sor)",
                "Psicose (Psi)",
                "Tagatose (Tag)",
                "Xylulose (Xylu)",
                "Ribulose (Rub)"
            ],
            "mismatches": [
                "Deoxyribose (dRib)",
                "Levulose (Lev)",
                "Ulose (Ulo)",
                "Fuculose (Fuc)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrose",
                "D-idose",
                "D-threose",
                "D-xylulose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-fuculose",
                "L-fuculose 1-phosphate",
                "L-galactose",
                "L-glucofuranose",
                "L-glucose",
                "L-gulose",
                "L-idose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-ribulose",
                "L-tagatose",
                "L-talose",
                "L-xylo-hexos-2-ulose",
                "L-xylose",
                "L-xylulose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrose",
                "fructose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 20,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-5-sonnet-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Xylose (Xyl)",
            "Ribose",
            "Arabinose (Ara)",
            "Allose",
            "Altrose",
            "Gulose",
            "Idose",
            "Talose",
            "Psicose",
            "Sorbose",
            "Tagatose",
            "Erythrose",
            "Threose",
            "Lyxose",
            "Deoxyribose",
            "Fucose (Fuc)",
            "Rhamnose (Rha)",
            "Glucuronic acid (GlcA)",
            "Galacturonic acid (GalA)",
            "N-Acetylglucosamine (GlcNAc)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Ribose",
                "Arabinose (Ara)",
                "Allose",
                "Altrose",
                "Gulose",
                "Idose",
                "Talose",
                "Psicose",
                "Sorbose",
                "Tagatose",
                "Erythrose",
                "Threose",
                "Lyxose",
                "Rhamnose (Rha)",
                "Glucuronic acid (GlcA)",
                "Galacturonic acid (GalA)"
            ],
            "mismatches": [
                "Deoxyribose",
                "Fucose (Fuc)",
                "N-Acetylglucosamine (GlcNAc)"
            ],
            "true_referents": [
                "1-deoxy-N-acetylglucosamine",
                "D-idose",
                "D-rhamnose",
                "D-sorbose",
                "D-threose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-glucuronic acid",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "N-Acetylglucosamine 6-phosphate",
                "[4)-beta-D-GlcpA-(1->4)-alpha-D-GlcpNAc-(1->]n",
                "allose",
                "altrose",
                "arabinose",
                "beta-D-galacturonic acid",
                "deoxyribonucleotide",
                "erythrose",
                "erythroses",
                "fructose",
                "fucose",
                "galactose",
                "galacturonic acid",
                "galacturonic acids",
                "glucose",
                "glucuronic acid",
                "glucuronic acids",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "tagatose",
                "talose",
                "threose",
                "xylose"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-opus-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Xylose (Xyl)",
            "Ribose (Rib)",
            "Arabinose (Ara)",
            "Lyxose (Lyx)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Fucose (Fuc)",
            "Rhamnose (Rha)",
            "Quinovose (Qui)",
            "Olivose (Oli)",
            "Abequose (Abe)",
            "Colitose (Col)",
            "Tyvelose (Tyv)",
            "Paratose (Par)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Ribose (Rib)",
                "Arabinose (Ara)",
                "Lyxose (Lyx)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Psicose (Psi)",
                "Tagatose (Tag)",
                "Fucose (Fuc)",
                "Rhamnose (Rha)",
                "Quinovose (Qui)",
                "Abequose (Abe)",
                "Colitose (Col)",
                "Tyvelose (Tyv)",
                "Paratose (Par)"
            ],
            "mismatches": [
                "Sorbose (Sor)",
                "Olivose (Oli)"
            ],
            "true_referents": [
                "CDP-alpha-D-abequose",
                "D-altrose",
                "D-idose",
                "D-olivose",
                "D-paratose",
                "D-quinovose",
                "D-rhamnose",
                "GDP-beta-L-colitose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "abequose",
                "allose",
                "alpha-tyvelopyranose",
                "altrose",
                "arabinose",
                "colitose",
                "dTDP-D-olivose",
                "dTDP-L-olivose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "paratose",
                "psicose",
                "quinovose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "tyvelose",
                "xylose"
            ],
            "TP": 22,
            "FP": 2,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-sonnet-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Lyxose (Lyx)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Fucose (Fuc)",
            "Rhamnose (Rha)",
            "Quinovose (Qui)",
            "Acose (Aco)",
            "Heptulose (Hep)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Lyxose (Lyx)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Psicose (Psi)",
                "Tagatose (Tag)",
                "Rhamnose (Rha)",
                "Quinovose (Qui)"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Deoxyribose (dRib)",
                "Sorbose (Sor)",
                "Fucose (Fuc)",
                "Acose (Aco)",
                "Heptulose (Hep)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrose",
                "D-idose",
                "D-quinovose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "heptose",
                "idose",
                "lyxose",
                "manno-heptulose",
                "mannose",
                "psicose",
                "quinovose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose"
            ],
            "TP": 18,
            "FP": 6,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "anthropic.claude-3-haiku-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Glucose (Glc)",
            "Fructose (Fru)",
            "Galactose (Gal)",
            "Mannose (Man)",
            "Ribose (Rib)",
            "Deoxyribose (dRib)",
            "Erythrulose (Ery)",
            "Xylose (Xyl)",
            "Arabinose (Ara)",
            "Allose (All)",
            "Altrose (Alt)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Talose (Tal)",
            "Psicose (Psi)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Fucose (Fuc)",
            "Rhamnose (Rha)",
            "Lyxose (Lyx)",
            "Threose (Thr)",
            "Erythrulose (Ery)",
            "Sedoheptulose (Sed)",
            "Glyceraldehyde (Gla)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose (Glc)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Mannose (Man)",
                "Erythrulose (Ery)",
                "Xylose (Xyl)",
                "Arabinose (Ara)",
                "Allose (All)",
                "Altrose (Alt)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Talose (Tal)",
                "Psicose (Psi)",
                "Tagatose (Tag)",
                "Rhamnose (Rha)",
                "Lyxose (Lyx)",
                "Threose (Thr)",
                "Sedoheptulose (Sed)",
                "Glyceraldehyde (Gla)"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Deoxyribose (dRib)",
                "Sorbose (Sor)",
                "Fucose (Fuc)"
            ],
            "true_referents": [
                "D-altrose",
                "D-erythrulose",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-glyceraldehyde",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "altrose",
                "arabinose",
                "deoxyribulose phosphate",
                "erythrulose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "glyceraldehyde",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sedoheptulose",
                "sedoheptulose derivative",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "threose",
                "xylose"
            ],
            "TP": 19,
            "FP": 4,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-8b-instruct-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Ribose (Rib)",
            "Arabinose (Ara)",
            "Xylose (Xyl)",
            "Lyxose (Lyx)",
            "Rhamnose (Rha)",
            "Fucose (Fuc)",
            "Galactose (Gal)",
            "Glucose (Glc)",
            "Mannose (Man)",
            "Idose (Ido)",
            "Allose (All)",
            "Altrose (Alt)",
            "Talose (Tal)",
            "Gulose (Gul)",
            "Mannose-6-phosphate",
            "Glucose-6-phosphate",
            "Fructose (Fru)",
            "Erythrose (Ery)",
            "Threose (Thr)",
            "Arabinose-5-phosphate",
            "Ribulose (Rib)",
            "Xylulose (Xyl)",
            "Glucuronic acid (GlcA)",
            "Iduronic acid (IdoA)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Arabinose (Ara)",
                "Xylose (Xyl)",
                "Lyxose (Lyx)",
                "Rhamnose (Rha)",
                "Galactose (Gal)",
                "Glucose (Glc)",
                "Mannose (Man)",
                "Idose (Ido)",
                "Allose (All)",
                "Altrose (Alt)",
                "Talose (Tal)",
                "Gulose (Gul)",
                "Mannose-6-phosphate",
                "Glucose-6-phosphate",
                "Fructose (Fru)",
                "Erythrose (Ery)",
                "Threose (Thr)",
                "Ribulose (Rib)",
                "Xylulose (Xyl)",
                "Glucuronic acid (GlcA)",
                "Iduronic acid (IdoA)"
            ],
            "mismatches": [
                "Ribose (Rib)",
                "Fucose (Fuc)",
                "Arabinose-5-phosphate"
            ],
            "true_referents": [
                "D-altrose",
                "D-arabinose 5-phosphate",
                "D-erythrose",
                "D-glucose 6-phosphate",
                "D-idose",
                "D-rhamnose",
                "D-threose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-glucuronic acid",
                "L-gulose",
                "L-iduronic acid",
                "L-lyxose",
                "L-mannose",
                "L-ribulose",
                "L-talose",
                "L-xylose",
                "L-xylulose",
                "allose",
                "altrose",
                "arabinose",
                "erythrose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "glucuronic acid",
                "glucuronic acids",
                "gulose",
                "idose",
                "iduronic acid",
                "iduronic acids",
                "lyxose",
                "mannose",
                "mannose 6-phosphate",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "ribulose",
                "talose",
                "threose",
                "xylose",
                "xylulose"
            ],
            "TP": 21,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "meta.llama3-70b-instruct-v1:0",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            "Allose (All)",
            "Altrose (Alt)",
            "Arabinose (Ara)",
            "Erythrose (Ery)",
            "Fructose (Fru)",
            "Fucose (Fuc)",
            "Galactose (Gal)",
            "Glucose (Glc)",
            "Gulose (Gul)",
            "Idose (Ido)",
            "Lyxose (Lyx)",
            "Mannose (Man)",
            "Psicose (Psi)",
            "Ribose (Rib)",
            "Rhamnose (Rha)",
            "Sorbose (Sor)",
            "Tagatose (Tag)",
            "Talose (Tal)",
            "Xylose (Xyl)",
            "Apiose (Api)",
            "Digitoxose (Dig)",
            "Tyvelose (Tyl)"
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Allose (All)",
                "Altrose (Alt)",
                "Arabinose (Ara)",
                "Erythrose (Ery)",
                "Fructose (Fru)",
                "Galactose (Gal)",
                "Glucose (Glc)",
                "Gulose (Gul)",
                "Idose (Ido)",
                "Lyxose (Lyx)",
                "Mannose (Man)",
                "Psicose (Psi)",
                "Rhamnose (Rha)",
                "Tagatose (Tag)",
                "Talose (Tal)",
                "Xylose (Xyl)",
                "Apiose (Api)",
                "Digitoxose (Dig)",
                "Tyvelose (Tyl)"
            ],
            "mismatches": [
                "Fucose (Fuc)",
                "Ribose (Rib)",
                "Sorbose (Sor)"
            ],
            "true_referents": [
                "D-altrose",
                "D-apiose",
                "D-erythrose",
                "D-idose",
                "D-rhamnose",
                "L-allose",
                "L-arabinose",
                "L-fructose",
                "L-galactose",
                "L-glucose",
                "L-gulose",
                "L-lyxose",
                "L-mannose",
                "L-psicose",
                "L-tagatose",
                "L-talose",
                "L-xylose",
                "allose",
                "alpha-tyvelopyranose",
                "altrose",
                "arabinose",
                "digitalose",
                "digitoxose",
                "erythrose",
                "fructose",
                "fucose",
                "galactose",
                "glucose",
                "gulose",
                "idose",
                "lyxose",
                "mannose",
                "psicose",
                "rhamnose",
                "ribose",
                "ribose phosphate",
                "sorbose",
                "sorbose derivative",
                "tagatose",
                "talose",
                "tyvelose",
                "xylose"
            ],
            "TP": 19,
            "FP": 3,
            "FN": 0
        }
    },
    {
        "test": "limited-list-referents",
        "responder": "amazon.titan-text-express-v1",
        "concept": "monosaccharide",
        "domain": "chemistry",
        "response": [
            {
                "Referent": "Glucose",
                "Canonical Name": "Glucose"
            },
            {
                "Referent": "Fructose",
                "Canonical Name": "Fructose"
            },
            {
                "Referent": "Galactose",
                "Canonical Name": "Galactose"
            },
            {
                "Referent": "Ribose",
                "Canonical Name": "Ribose"
            },
            {
                "Referent": "Xylose",
                "Canonical Name": "Xylose"
            },
            {
                "Referent": "Arabinose",
                "Canonical Name": "Arabinose"
            },
            {
                "Referent": "Lyxose",
                "Canonical Name": "Lyxose"
            },
            {
                "Referent": "Maltose",
                "Canonical Name": "Maltose"
            },
            {
                "Referent": "Sucrose",
                "Canonical Name": "Sucrose"
            },
            {
                "Referent": "Cellobiose",
                "Canonical Name": "Cellobiose"
            },
            {
                "Referent": "Lactose",
                "Canonical Name": "Lactose"
            },
            {
                "Referent": "Maltotriose",
                "Canonical Name": "Maltotriose"
            },
            {
                "Referent": "Isomaltose",
                "Canonical Name": "Isomaltose"
            },
            {
                "Referent": "Trehalose",
                "Canonical Name": "Trehalose"
            },
            {
                "Referent": "Tagatose",
                "Canonical Name": "Tagatose"
            },
            {
                "Referent": "Allose",
                "Canonical Name": "Allose"
            },
            {
                "Referent": "Altrose",
                "Canonical Name": "Altrose"
            },
            {
                "Referent": "Psicose",
                "Canonical Name": "Psicose"
            },
            {
                "Referent": "Fucose",
                "Canonical Name": "Fucose"
            },
            {
                "Referent": "Raffinose",
                "Canonical Name": "Raffinose"
            },
            {
                "Referent": "Stachyose",
                "Canonical Name": "Stachyose"
            },
            {
                "Referent": "N-Acetylglucosamine",
                "Canonical Name": "N-Acetylglucosamine"
            },
            {
                "Referent": "N-Acetylgalactosamine",
                "Canonical Name": "N-Acetylgalactosamine"
            },
            {
                "Referent": "N-Acetylneuraminic acid",
                "Canonical Name": "N-Acetylneuraminic acid"
            }
        ],
        "scorer": "gpt-4o",
        "judgement": {
            "matches": [
                "Glucose",
                "Fructose",
                "Ribose",
                "Xylose",
                "Arabinose",
                "Lyxose",
                "Trehalose",
                "Fucose",
                "Altrose",
                "Allose",
                "N-Acetylneuraminic acid"
            ],
            "mismatches": [
                "Galactose",
                "Maltose",
                "Sucrose",
                "Cellobiose",
                "Lactose",
                "Maltotriose",
                "Isomaltose",
                "Tagatose",
                "Psicose",
                "Raffinose",
                "Stachyose",
                "N-Acetylglucosamine",
                "N-Acetylgalactosamine"
            ],
            "true_referents": [
                "1-deoxy-N-acetylglucosamine",
                "2,9-dideoxy-9-glutaramido-2,3-dehydo-N-acetylneuraminic acid",
                "3,6-di-O-methyl-beta-D-glucose",
                "D-(+)-Galactosamine",
                "D-psicose",
                "D-tagatose",
                "L-allose",
                "L-altrose",
                "L-arabinose",
                "L-psicose",
                "L-tagatose",
                "L-xylose",
                "N-acetyl-beta-D-glucosaminyl-(1->4)-N-acetyl-beta-D-glucosaminide",
                "N-acetylneuraminic acid",
                "UDP-N-acetylgalactosamine-5,6-ene",
                "allose",
                "alpha,beta-trehalose",
                "alpha-(1->3)-galactobiose",
                "alpha-D-galactosyl-(1->3)-D-galactose",
                "altrose",
                "arabinose",
                "beta-D-galactosyl-(1->3)-beta-D-galactosyl-(1->4)-beta-D-glucoside",
                "dTDP-5,5-di-C-methyl-beta-L-lyxose",
                "deoxyglucose",
                "fructose",
                "fucose",
                "glucose",
                "hexose",
                "lyxose",
                "maltitol",
                "ribose",
                "xylose"
            ],
            "TP": 11,
            "FP": 13,
            "FN": 0
        }
    }
]