Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models | OpenReview

Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models

Open Webpage

Biao Yi, Tiansheng Huang, Sishuo Chen, Tong Li, Zheli Liu, Zhixuan Chu, Yiming Li

Published: 2025, Last Modified: 21 Jan 2026ICLR 2025EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading