Foundational Challenges in Assuring Alignment and Safety of Large Language Models

Usman Anwar; Abulhair Saparov; Javier Rando; Daniel Paleka; Miles Turpin; Peter Hase; Ekdeep Singh Lubana; Erik Jenner; Stephen Casper; Oliver Sourbut; Benjamin L. Edelman; Zhaowei Zhang; Mario Günther; Anton Korinek; Jose Hernandez-Orallo; Lewis Hammond; Eric J Bigelow; Alexander Pan; Lauro Langosco; Tomasz Korbak; Heidi Chenyu Zhang; Ruiqi Zhong; Sean O hEigeartaigh; Gabriel Recchia; Giulio Corsi; Alan Chan; Markus Anderljung; Lilian Edwards; Aleksandar Petrov; Christian Schroeder de Witt; Sumeet Ramesh Motwani; Yoshua Bengio; Danqi Chen; Philip Torr; Samuel Albanie; Tegan Maharaj; Jakob Nicolaus Foerster; Florian Tramèr; He He; Atoosa Kasirzadeh; Yejin Choi; David Krueger

Foundational Challenges in Assuring Alignment and Safety of Large Language Models

Published: 02 Sept 2024, Last Modified: 17 Sept 2024Accepted by TMLREveryoneRevisionsBibTeXCC BY 4.0

Authors that are also TMLR Expert Reviewers: ~Yoshua_Bengio1

Abstract: This work identifies 18 foundational challenges in assuring the alignment and safety of large language models (LLMs). These challenges are organized into three different categories: scientific understanding of LLMs, development and deployment methods, and sociotechnical challenges. Based on the identified challenges, we pose 200+, concrete research questions.

Certifications: Survey Certification, Expert Certification

Submission Length: Long submission (more than 12 pages of main content)

Changes Since Last Submission: Camera ready version

Assigned Action Editor: ~Greg_Durrett1

Submission Number: 2632

Loading