User Input,spatial_understanding
Difficulty,Model,Subjective Score,Objective Score,Alignment Rate
easy,GPT-4o,6.92436974789916,0.865546218487395,0.7933333333333333
easy,Gemini-1.5-Flash,6.610169491525424,0.7542372881355932,0.7866666666666666
easy,Claude-3.5-Sonnet,6.38655462184874,0.8403361344537815,0.7933333333333333
easy,Claude-3-Haiku,6.285714285714286,0.8067226890756303,0.7933333333333333
easy,GLM-4v,6.378151260504202,0.8403361344537815,0.7933333333333333
easy,GPT-4o-Mini,5.915966386554622,0.8487394957983193,0.7933333333333333
medium,GPT-4o,6.035714285714286,0.7214285714285714,0.9333333333333333
medium,Gemini-1.5-Flash,5.335714285714285,0.7357142857142858,0.9333333333333333
medium,Claude-3.5-Sonnet,5.589928057553957,0.6546762589928058,0.9266666666666666
medium,Claude-3-Haiku,5.285714285714286,0.6642857142857143,0.9333333333333333
medium,GLM-4v,5.364285714285714,0.7,0.9333333333333333
medium,GPT-4o-Mini,5.610714285714286,0.6714285714285714,0.9333333333333333
hard,GPT-4o,5.969230769230769,0.6,0.8666666666666667
hard,Gemini-1.5-Flash,5.0458015267175576,0.5190839694656488,0.8733333333333333
hard,Claude-3.5-Sonnet,5.161538461538462,0.4461538461538462,0.8666666666666667
hard,Claude-3-Haiku,5.374045801526718,0.5114503816793893,0.8733333333333333
hard,GLM-4v,5.083969465648855,0.48854961832061067,0.8733333333333333
hard,GPT-4o-Mini,5.320610687022901,0.549618320610687,0.8733333333333333
