SwordEcho: A LLM Jailbreaking Optimization Strategy Driven by Reinforcement Learning | OpenReview

SwordEcho: A LLM Jailbreaking Optimization Strategy Driven by Reinforcement Learning

Open Webpage

Xuehai Tang, Wenjie Xiao, Zhongjiang Yao, Jizhong Han

Published: 06 Dec 2024, Last Modified: 07 Jan 2026CrossrefEveryoneRevisionsCC BY-SA 4.0

External IDs:doi:10.1145/3709026.3709115

Loading