One-shot Entropy Minimization

Zitian Gao, Yilong Chen, Haoming Luo, Joey Zhou, Bryan Dai

Published: 25 May 2025, Last Modified: 25 Mar 2026OpenReview Archive Direct UploadEveryoneCC BY-SA 4.0

Abstract: We trained 13,440 large language models and found that entropy minimization requires only a single unlabeled data and 10 steps optimization to achieve performance improvements comparable to or even greater than those obtained using thousands of data and carefully designed rewards in rule-based reinforcement learning. This striking result may prompt a rethinking of post-training paradigms for large language models.