WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild | OpenReview

WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

Open Webpage

Bill Yuchen Lin, Yuntian Deng, Khyathi Raghavi Chandu, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi

Published: 2025, Last Modified: 20 May 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading