User Input,reasoning,Ablation Study
Difficulty,Model,Subjective Score,Objective Score,Alignment Rate
easy,GPT-4o,7.526666666666666,0.9,1.0
easy,GPT-4o-Mini,6.74,0.9066666666666666,1.0
easy,Gemini-1.5-Flash,7.04054054054054,0.8986486486486487,0.9866666666666667
easy,Claude-3.5-Sonnet,6.918918918918919,0.9391891891891891,0.9866666666666667
easy,Claude-3-Haiku,6.8933333333333335,0.9133333333333333,1.0
easy,GLM-4v,6.959731543624161,0.8791946308724832,0.9933333333333333
medium,GPT-4o,6.624161073825503,0.8926174496644296,0.9933333333333333
medium,GPT-4o-Mini,6.429530201342282,0.8590604026845637,0.9933333333333333
medium,Gemini-1.5-Flash,6.034246575342466,0.8356164383561644,0.9733333333333334
medium,Claude-3.5-Sonnet,6.041095890410959,0.8287671232876712,0.9733333333333334
medium,Claude-3-Haiku,6.1879194630872485,0.8657718120805369,0.9933333333333333
medium,GLM-4v,6.736486486486487,0.8378378378378378,0.9866666666666667
hard,GPT-4o,6.591836734693878,0.7959183673469388,0.98
hard,GPT-4o-Mini,6.517006802721088,0.7619047619047619,0.98
hard,Gemini-1.5-Flash,5.594405594405594,0.7132867132867133,0.9533333333333334
hard,Claude-3.5-Sonnet,5.26530612244898,0.564625850340136,0.98
hard,Claude-3-Haiku,5.72972972972973,0.6554054054054054,0.9866666666666667
hard,GLM-4v,6.397260273972603,0.636986301369863,0.9733333333333334
