The inadequacy of offline large language model evaluations: A need to account for personalization in model behavior | OpenReview

The inadequacy of offline large language model evaluations: A need to account for personalization in model behavior

Wang Angelina, Ho Daniel E., Koyejo Sanmi

Published: 12 Dec 2025, Last Modified: 26 Jan 2026PATTERNSEveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:doi:10.1016/j.patter.2025.101397

Loading