User Input,semantic_understanding
Difficulty,Model,Objective Score,Alignment Rate
easy,GPT-4o,0.9381443298969072,0.8083333333333333
easy,GPT-4o mini,0.9123711340206185,0.8083333333333333
easy,Gemini-Flash,0.9119170984455959,0.8041666666666667
easy,Claude-3.5,0.9175257731958762,0.8083333333333333
easy,Claude-3,0.9072164948453608,0.8083333333333333
easy,GLM-4v,0.9278350515463918,0.8083333333333333
easy,Qwen2-VL,0.9226804123711341,0
medium,GPT-4o,0.8363636363636363,0.9166666666666666
medium,GPT-4o mini,0.7909090909090909,0.9166666666666666
medium,Gemini-Flash,0.7818181818181819,0.9166666666666666
medium,Claude-3.5,0.7772727272727272,0.9166666666666666
medium,Claude-3,0.7889908256880734,0.9083333333333333
medium,GLM-4v,0.7990867579908676,0.9125
medium,Qwen2-VL,0.8045454545454546,0
hard,GPT-4o,0.7935779816513762,0.9083333333333333
hard,GPT-4o mini,0.8165137614678899,0.9083333333333333
hard,Gemini-Flash,0.7710280373831776,0.8916666666666667
hard,Claude-3.5,0.6697247706422018,0.9083333333333333
hard,Claude-3,0.7339449541284404,0.9083333333333333
hard,GLM-4v,0.6682027649769585,0.9041666666666667
hard,Qwen2-VL,0.7935779816513762,0
