Feedback Loops With Language Models Drive In-Context Reward Hacking | OpenReview

Feedback Loops With Language Models Drive In-Context Reward Hacking

Open Webpage

Alexander Pan, Erik Jones, Meena Jagadeesan, Jacob Steinhardt

Published: 2024, Last Modified: 26 Sept 2025ICML 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading