TROLL: Trust Regions improve Reinforcement Learning for Large Language Models | OpenReview

TROLL: Trust Regions improve Reinforcement Learning for Large Language Models

Open Webpage

Philipp Becker, Niklas Freymuth, Serge Thilges, Fabian Otto, Gerhard Neumann

Published: 2025, Last Modified: 05 May 2026CoRR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:dblp:journals/corr/abs-2510-03817

Loading