{
"Atmospheric.": {
"easy": {
"GPT-4o": {"Objective Score": 0.9393939393939394, "Alignment Rate": 0.825},
"GPT-4o mini": {"Objective Score": 0.9545454545454546, "Alignment Rate": 0.825},
"Gemini-Flash": {"Objective Score": 0.927461139896373, "Alignment Rate": 0.8041666666666667},
"Claude-3.5": {"Objective Score": 0.9432989690721649, "Alignment Rate": 0.8083333333333333},
"Claude-3": {"Objective Score": 0.9141414141414141, "Alignment Rate": 0.825},
"GLM-4v": {"Objective Score": 0.9644670050761421, "Alignment Rate": 0.8208333333333333},
"Qwen2-VL": {"Objective Score": 0.96, "Alignment Rate": 0}
},
"medium": {
"GPT-4o": {"Objective Score": 0.8434782608695652, "Alignment Rate": 0.9583333333333334},
"GPT-4o mini": {"Objective Score": 0.8478260869565217, "Alignment Rate": 0.9583333333333334},
"Gemini-Flash": {"Objective Score": 0.8414096916299559, "Alignment Rate": 0.9458333333333333},
"Claude-3.5": {"Objective Score": 0.8173913043478261, "Alignment Rate": 0.9583333333333334},
"Claude-3": {"Objective Score": 0.8391304347826087, "Alignment Rate": 0.9583333333333334},
"GLM-4v": {"Objective Score": 0.8217391304347826, "Alignment Rate": 0.9583333333333334},
"Qwen2-VL": {"Objective Score": 0.852112676056338, "Alignment Rate": 0}
},
"hard": {
"GPT-4o": {"Objective Score": 0.8181818181818182, "Alignment Rate": 0.7333333333333333},
"GPT-4o mini": {"Objective Score": 0.7727272727272727, "Alignment Rate": 0.7333333333333333},
"Gemini-Flash": {"Objective Score": 0.7687861271676301, "Alignment Rate": 0.7208333333333333},
"Claude-3.5": {"Objective Score": 0.6875, "Alignment Rate": 0.7333333333333333},
"Claude-3": {"Objective Score": 0.7443181818181818, "Alignment Rate": 0.7333333333333333},
"GLM-4v": {"Objective Score": 0.6988636363636364, "Alignment Rate": 0.7333333333333333},
"Qwen2-VL": {"Objective Score": 0.7959183673469388, "Alignment Rate": 0}
}
},
"Basic.": {
"easy": {
"GPT-4o": {"Objective Score": 0.9017857142857143, "Alignment Rate": 0.4666666666666667},
"GPT-4o mini": {"Objective Score": 0.9017857142857143, "Alignment Rate": 0.4666666666666667},
"Gemini-Flash": {"Objective Score": 0.8928571428571429, "Alignment Rate": 0.4666666666666667},
"Claude-3.5": {"Objective Score": 0.9107142857142857, "Alignment Rate": 0.4666666666666667},
"Claude-3": {"Objective Score": 0.8928571428571429, "Alignment Rate": 0.4666666666666667},
"GLM-4v": {"Objective Score": 0.9196428571428571, "Alignment Rate": 0.4666666666666667},
"Qwen2-VL": {"Objective Score": 0.9017857142857143, "Alignment Rate": 0}
},
"medium": {
"GPT-4o": {"Objective Score": 0.7687074829931972, "Alignment Rate": 0.6125},
"GPT-4o mini": {"Objective Score": 0.7619047619047619, "Alignment Rate": 0.6125},
"Gemini-Flash": {"Objective Score": 0.7346938775510204, "Alignment Rate": 0.6125},
"Claude-3.5": {"Objective Score": 0.7551020408163265, "Alignment Rate": 0.6125},
"Claude-3": {"Objective Score": 0.7210884353741497, "Alignment Rate": 0.6125},
"GLM-4v": {"Objective Score": 0.7482993197278912, "Alignment Rate": 0.6125},
"Qwen2-VL": {"Objective Score": 0.8231292517006803, "Alignment Rate": 0}
},
"hard": {
"GPT-4o": {"Objective Score": 0.6911764705882353, "Alignment Rate": 0.5666666666666667},
"GPT-4o mini": {"Objective Score": 0.6343283582089553, "Alignment Rate": 0.5583333333333333},
"Gemini-Flash": {"Objective Score": 0.6691176470588235, "Alignment Rate": 0.5666666666666667},
"Claude-3.5": {"Objective Score": 0.5955882352941176, "Alignment Rate": 0.5666666666666667},
"Claude-3": {"Objective Score": 0.5955882352941176, "Alignment Rate": 0.5666666666666667},
"GLM-4v": {"Objective Score": 0.6102941176470589, "Alignment Rate": 0.5666666666666667},
"Qwen2-VL": {"Objective Score": 0.6470588235294118, "Alignment Rate": 0}
}
},
"Reasoning.": {
"easy": {
"GPT-4o": {"Objective Score": 0.8813559322033898, "Alignment Rate": 0.7375},
"GPT-4o mini": {"Objective Score": 0.8192090395480226, "Alignment Rate": 0.7375},
"Gemini-Flash": {"Objective Score": 0.8531073446327684, "Alignment Rate": 0.7375},
"Claude-3.5": {"Objective Score": 0.8531073446327684, "Alignment Rate": 0.7375},
"Claude-3": {"Objective Score": 0.8248587570621468, "Alignment Rate": 0.7375},
"GLM-4v": {"Objective Score": 0.8700564971751412, "Alignment Rate": 0.7375},
"Qwen2-VL": {"Objective Score": 0.8757062146892656, "Alignment Rate": 0}
},
"medium": {
"GPT-4o": {"Objective Score": 0.8195121951219512, "Alignment Rate": 0.8541666666666666},
"GPT-4o mini": {"Objective Score": 0.775609756097561, "Alignment Rate": 0.8541666666666666},
"Gemini-Flash": {"Objective Score": 0.7044334975369458, "Alignment Rate": 0.8458333333333333},
"Claude-3.5": {"Objective Score": 0.7463414634146341, "Alignment Rate": 0.8541666666666666},
"Claude-3": {"Objective Score": 0.6731707317073171, "Alignment Rate": 0.8541666666666666},
"GLM-4v": {"Objective Score": 0.7463414634146341, "Alignment Rate": 0.8541666666666666},
"Qwen2-VL": {"Objective Score": 0.7317073170731707, "Alignment Rate": 0}
},
"hard": {
"GPT-4o": {"Objective Score": 0.7650273224043715, "Alignment Rate": 0.7625},
"GPT-4o mini": {"Objective Score": 0.6994535519125683, "Alignment Rate": 0.7625},
"Gemini-Flash": {"Objective Score": 0.6815642458100558, "Alignment Rate": 0.7458333333333333},
"Claude-3.5": {"Objective Score": 0.5846994535519126, "Alignment Rate": 0.7625},
"Claude-3": {"Objective Score": 0.7158469945355191, "Alignment Rate": 0.7625},
"GLM-4v": {"Objective Score": 0.6612021857923497, "Alignment Rate": 0.7625},
"Qwen2-VL": {"Objective Score": 0.7103825136612022, "Alignment Rate": 0}
}
},
"Semantic.": {
"easy": {
"GPT-4o": {"Objective Score": 0.9381443298969072, "Alignment Rate": 0.8083333333333333},
"GPT-4o mini": {"Objective Score": 0.9123711340206185, "Alignment Rate": 0.8083333333333333},
"Gemini-Flash": {"Objective Score": 0.9119170984455959, "Alignment Rate": 0.8041666666666667},
"Claude-3.5": {"Objective Score": 0.9175257731958762, "Alignment Rate": 0.8083333333333333},
"Claude-3": {"Objective Score": 0.9072164948453608, "Alignment Rate": 0.8083333333333333},
"GLM-4v": {"Objective Score": 0.9278350515463918, "Alignment Rate": 0.8083333333333333},
"Qwen2-VL": {"Objective Score": 0.9226804123711341, "Alignment Rate": 0}
},
"medium": {
"GPT-4o": {"Objective Score": 0.8363636363636363, "Alignment Rate": 0.9166666666666666},
"GPT-4o mini": {"Objective Score": 0.7909090909090909, "Alignment Rate": 0.9166666666666666},
"Gemini-Flash": {"Objective Score": 0.7818181818181819, "Alignment Rate": 0.9166666666666666},
"Claude-3.5": {"Objective Score": 0.7772727272727272, "Alignment Rate": 0.9166666666666666},
"Claude-3": {"Objective Score": 0.7889908256880734, "Alignment Rate": 0.9083333333333333},
"GLM-4v": {"Objective Score": 0.7990867579908676, "Alignment Rate": 0.9125},
"Qwen2-VL": {"Objective Score": 0.8045454545454546, "Alignment Rate": 0}
},
"hard": {
"GPT-4o": {"Objective Score": 0.7935779816513762, "Alignment Rate": 0.9083333333333333},
"GPT-4o mini": {"Objective Score": 0.8165137614678899, "Alignment Rate": 0.9083333333333333},
"Gemini-Flash": {"Objective Score": 0.7710280373831776, "Alignment Rate": 0.8916666666666667},
"Claude-3.5": {"Objective Score": 0.6697247706422018, "Alignment Rate": 0.9083333333333333},
"Claude-3": {"Objective Score": 0.7339449541284404, "Alignment Rate": 0.9083333333333333},
"GLM-4v": {"Objective Score": 0.6682027649769585, "Alignment Rate": 0.9041666666666667},
"Qwen2-VL": {"Objective Score": 0.7935779816513762, "Alignment Rate": 0}
}
},
"Spatial.": {
"easy": {
"GPT-4o": {"Objective Score": 0.8609625668449198, "Alignment Rate": 0.7791666666666667},
"GPT-4o mini": {"Objective Score": 0.8128342245989305, "Alignment Rate": 0.7791666666666667},
"Gemini-Flash": {"Objective Score": 0.8181818181818182, "Alignment Rate": 0.7791666666666667},
"Claude-3.5": {"Objective Score": 0.839572192513369, "Alignment Rate": 0.7791666666666667},
"Claude-3": {"Objective Score": 0.8021390374331551, "Alignment Rate": 0.7791666666666667},
"GLM-4v": {"Objective Score": 0.839572192513369, "Alignment Rate": 0.7791666666666667},
"Qwen2-VL": {"Objective Score": 0.81818181818181, "Alignment Rate": 0}
},
"medium": {
"GPT-4o": {"Objective Score": 0.7224669603524229, "Alignment Rate": 0.9458333333333333},
"GPT-4o mini": {"Objective Score": 0.672566371681416, "Alignment Rate": 0.9416666666666667},
"Gemini-Flash": {"Objective Score": 0.6696035242290749, "Alignment Rate": 0.9458333333333333},
"Claude-3.5": {"Objective Score": 0.6784140969162996, "Alignment Rate": 0.9458333333333333},
"Claude-3": {"Objective Score": 0.6475770925110133, "Alignment Rate": 0.9458333333333333},
"GLM-4v": {"Objective Score": 0.748898678414097, "Alignment Rate": 0.9458333333333333},
"Qwen2-VL": {"Objective Score": 0.7400881057268722, "Alignment Rate": 0}
},
"hard": {
"GPT-4o": {"Objective Score": 0.6828193832599119, "Alignment Rate": 0.9458333333333333},
"GPT-4o mini": {"Objective Score": 0.6123348017621145, "Alignment Rate": 0.9458333333333333},
"Gemini-Flash": {"Objective Score": 0.6519823788546255, "Alignment Rate": 0.9458333333333333},
"Claude-3.5": {"Objective Score": 0.6460176991150443, "Alignment Rate": 0.9416666666666667},
"Claude-3": {"Objective Score": 0.5814977973568282, "Alignment Rate": 0.9458333333333333},
"GLM-4v": {"Objective Score": 0.6079295154185022, "Alignment Rate": 0.9458333333333333},
"Qwen2-VL":{"Objective Score": 0.6475770925110133, "Alignment Rate": 0}
}
}
}