A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity | OpenReview

A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

Open Webpage

Andrew Lee, Xiaoyan Bai, Itamar Pres, Martin Wattenberg, Jonathan K. Kummerfeld, Rada Mihalcea

Published: 01 Jan 2024, Last Modified: 16 May 2025ICML 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading