Reinforcement Learning for Large Language Model Fine-Tuning: A Systematic Literature Review

Lingxiao Kong, Qusai Ramdan, Oussama Zoubia, Jahid Hasan Polash, Mayra Elwes, Mehdi Akbari Gurabi, Lu Jin, Ekaterina Kutafina, Roman Matzutt, Yuanbin Wang, Junqi Xu, Oya Deniz Beyan, Cong Yang, Zeyd Boukhers

Published: 27 Nov 2025, Last Modified: 26 May 2026CrossrefEveryoneRevisionsCC BY-SA 4.0

Abstract: Large Language Models (LLMs) have been developed for a wide range of language-based tasks, while Reinforcement Learning (RL) has been primarily applied to decision-making problems such as robotics, game theory, and control systems. Nowadays, these two paradigms are integrated through different...

External IDs:doi:10.21203/rs.3.rs-8196796/v1