Do Large Language Models Fail Where Humans Fail? A Behavioral Comparison on Human-Calibrated Reasoning Tasks | OpenReview

Do Large Language Models Fail Where Humans Fail? A Behavioral Comparison on Human-Calibrated Reasoning Tasks

Open Webpage

Emma Amoros-Belda, Pablo Hernández-Cámara

Published: 01 Jan 2026, Last Modified: 05 May 2026CrossrefEveryoneRevisionsCC BY-SA 4.0

External IDs:doi:10.2139/ssrn.6544462

Loading