JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation | OpenReview

JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation

Download PDF

Open Webpage

Shenyi Zhang, Yuchen Zhai, Keyan Guo, Hongxin Hu, Shengnan Guo, Zheng Fang, Lingchen Zhao, Chao Shen, Cong Wang, Qian Wang

Published: 2025, Last Modified: 12 Jan 2026USENIX Security Symposium 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

External IDs:dblp:conf/uss/ZhangZGHG0Z00025

Loading