On the Role of Attention Heads in Large Language Model Safety | OpenReview

On the Role of Attention Heads in Large Language Model Safety

Open Webpage

Zhenhong Zhou, Haiyang Yu, Xinghua Zhang, Rongwu Xu, Fei Huang, Kun Wang, Yang Liu, Junfeng Fang, Yongbin Li

Published: 01 Jan 2025, Last Modified: 23 Jul 2025ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading