Vanishing Gradients in Reinforcement Finetuning of Language Models | OpenReview

Vanishing Gradients in Reinforcement Finetuning of Language Models

Open Webpage

Noam Razin, Hattie Zhou, Omid Saremi, Vimal Thilak, Arwen Bradley, Preetum Nakkiran, Joshua M. Susskind, Etai Littwin

Published: 2024, Last Modified: 30 Sept 2024ICLR 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading