Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards. | OpenReview

Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards.

Zijing Hu, Fengda Zhang, Long Chen 0016, Kun Kuang, Jiahui Li 0003, Kaifeng Gao, Jun Xiao 0001, Xin Wang 0019, Wenwu Zhu 0001

21 Jan 2026 (modified: 21 Jan 2026)CVPR 2025EveryoneRevisionsCC BY-SA 4.0

Loading