DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation | OpenReview

DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation

Open Webpage

Mingke Yang, Yuqi Chen, Yi Liu, Ling Shi

Published: 11 Sept 2024, Last Modified: 06 Jan 2026CrossrefEveryoneRevisionsCC BY-SA 4.0

External IDs:doi:10.1145/3650212.3680304

Loading