User Input,atmospheric_understanding
Difficulty,Model,Objective Score,Alignment Rate
easy,GPT-4o,0.9393939393939394,0.825
easy,GPT-4o mini,0.9545454545454546,0.825
easy,Gemini-Flash,0.927461139896373,0.8041666666666667
easy,Claude-3.5,0.9432989690721649,0.8083333333333333
easy,Claude-3,0.9141414141414141,0.825
easy,GLM-4v,0.9644670050761421,0.8208333333333333
easy,Qwen2-VL,0.96,0
medium,GPT-4o,0.8434782608695652,0.9583333333333334
medium,GPT-4o mini,0.8478260869565217,0.9583333333333334
medium,Gemini-Flash,0.8414096916299559,0.9458333333333333
medium,Claude-3.5,0.8173913043478261,0.9583333333333334
medium,Claude-3,0.8391304347826087,0.9583333333333334
medium,GLM-4v,0.8217391304347826,0.9583333333333334
medium,Qwen2-VL,0.852112676056338,0
hard,GPT-4o,0.8181818181818182,0.7333333333333333
hard,GPT-4o mini,0.7727272727272727,0.7333333333333333
hard,Gemini-Flash,0.7687861271676301,0.7208333333333333
hard,Claude-3.5,0.6875,0.7333333333333333
hard,Claude-3,0.7443181818181818,0.7333333333333333
hard,GLM-4v,0.6988636363636364,0.7333333333333333
hard,Qwen2-VL,0.7959183673469388,0
