Foundational Challenges in Assuring Alignment and Safety of Large Language Models. | OpenReview

Foundational Challenges in Assuring Alignment and Safety of Large Language Models.

Usman Anwar, Abulhair Saparov, Javier Rando, Daniel Paleka, Miles Turpin, Peter Hase, Ekdeep Singh Lubana, Erik Jenner, Stephen Casper, Oliver Sourbut, Benjamin L. Edelman, Zhaowei Zhang, Mario Günther, Anton Korinek, José Hernández-Orallo, Lewis Hammond, Eric J. Bigelow, Alexander Pan, Lauro Langosco, Tomasz Korbak et al. (22 additional authors not shown)

12 Nov 2025Trans. Mach. Learn. Res. 2024EveryoneCC BY-SA 4.0

Loading