Accelerating first-order methods for nonconvex-strongly-convex bilevel optimization under general smoothness

Shuyan Ge; Rujun Jiang; Luo Luo

Accelerating first-order methods for nonconvex-strongly-convex bilevel optimization under general smoothness

Shuyan Ge, Rujun Jiang, Luo Luo

19 Sept 2025 (modified: 18 Nov 2025)ICLR 2026 Conference Withdrawn SubmissionEveryoneRevisionsBibTeXCC BY 4.0

Keywords: Bilevel Optimization, Hölder Continuity, Accelerated Gradient Method

Abstract: Bilevel optimization is pivotal in machine learning applications such as hyperparameter tuning and adversarial training. While existing methods for nonconvex-strongly-convex bilevel optimization can find an $\epsilon$-stationary point under Lipschitz continuity assumptions, two critical gaps persist: improving algorithmic complexity and generalizing smoothness conditions. This paper addresses these challenges by introducing an accelerated framework under Hölder continuity—a broader class of smoothness that subsumes Lipschitz continuity. We propose a restarted accelerated gradient method that leverages inexact hypergradient estimators and establishes theoretical oracle complexity for finding $\epsilon$-stationary points. Empirically, experiments on data hypercleaning and hyperparameter optimization demonstrate superior convergence rates compared to state-of-the-art baselines.

Supplementary Material: zip

Primary Area: optimization

Submission Number: 17647

Loading