Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning | OpenReview

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Open Webpage

Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

Published: 2025, Last Modified: 06 Jan 2026ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading