An LLM can Fool Itself: A Prompt-Based Adversarial Attack | OpenReview

An LLM can Fool Itself: A Prompt-Based Adversarial Attack

Open Webpage

Xilie Xu, Keyi Kong, Ning Liu, Lizhen Cui, Di Wang, Jingfeng Zhang, Mohan S. Kankanhalli

Published: 2024, Last Modified: 21 Jan 2026ICLR 2024EveryoneRevisionsBibTeXCC BY-SA 4.0

Loading