User Input,spatial_understanding,Ablation Study
Difficulty,Model,Subjective Score,Objective Score,Alignment Rate
easy,GPT-4o,6.724832214765101,0.7516778523489933,0.9933333333333333
easy,GPT-4o-Mini,5.906040268456376,0.738255033557047,0.9933333333333333
easy,Gemini-1.5-Flash,6.3108108108108105,0.7432432432432432,0.9866666666666667
easy,Claude-3.5-Sonnet,6.054054054054054,0.7432432432432432,0.9866666666666667
easy,Claude-3-Haiku,6.12751677852349,0.7181208053691275,0.9933333333333333
easy,GLM-4v,5.758389261744966,0.7718120805369127,0.9933333333333333
medium,GPT-4o,6.382550335570469,0.7449664429530202,0.9933333333333333
medium,GPT-4o-Mini,5.295302013422819,0.7449664429530202,0.9933333333333333
medium,Gemini-1.5-Flash,5.268456375838926,0.7181208053691275,0.9933333333333333
medium,Claude-3.5-Sonnet,5.741496598639456,0.6666666666666666,0.98
medium,Claude-3-Haiku,5.724832214765101,0.6577181208053692,0.9933333333333333
medium,GLM-4v,5.832214765100671,0.6442953020134228,0.9933333333333333
hard,GPT-4o,5.966666666666667,0.62,1.0
hard,GPT-4o-Mini,5.613333333333333,0.6066666666666667,1.0
hard,Gemini-1.5-Flash,4.706666666666667,0.56,1.0
hard,Claude-3.5-Sonnet,5.134228187919463,0.5033557046979866,0.9933333333333333
hard,Claude-3-Haiku,5.422818791946309,0.6040268456375839,0.9933333333333333
hard,GLM-4v,5.798657718120805,0.5302013422818792,0.9933333333333333
