User Input,basic_understanding
Difficulty,Model,Objective Score,Alignment Rate
easy,GPT-4o,0.9017857142857143,0.4666666666666667
easy,GPT-4o mini,0.9017857142857143,0.4666666666666667
easy,Gemini-Flash,0.8928571428571429,0.4666666666666667
easy,Claude-3.5,0.9107142857142857,0.4666666666666667
easy,Claude-3,0.8928571428571429,0.4666666666666667
easy,GLM-4v,0.9196428571428571,0.4666666666666667
easy,Qwen2-VL,0.9017857142857143,0
medium,GPT-4o,0.7687074829931972,0.6125
medium,GPT-4o mini,0.7619047619047619,0.6125
medium,Gemini-Flash,0.7346938775510204,0.6125
medium,Claude-3.5,0.7551020408163265,0.6125
medium,Claude-3,0.7210884353741497,0.6125
medium,GLM-4v,0.7482993197278912,0.6125
medium,Qwen2-VL,0.8231292517006803,0
hard,GPT-4o,0.6911764705882353,0.5666666666666667
hard,GPT-4o mini,0.6343283582089553,0.5583333333333333
hard,Gemini-Flash,0.6691176470588235,0.5666666666666667
hard,Claude-3.5,0.5955882352941176,0.5666666666666667
hard,Claude-3,0.5955882352941176,0.5666666666666667
hard,GLM-4v,0.6102941176470589,0.5666666666666667
hard,Qwen2-VL,0.6470588235294118,0
