近日,国家网络安全学院2022级博士生张神轶撰写的论文被第34届USENIX安全研讨会(The 34rd USENIX Security Symposium 2025)录用。
论文题目为“JBShield: Defending Large Language Models from Jailbreak Attacks through Activated Concept Analysis and Manipulation”(《基于激活概念分析和控制的大型语言模型越狱防御》),指导老师为国家网络安全学院王骞教授(通讯作者)、赵令辰副教授,与纽约州立大学布法罗分校Hongxin Hu教授、西安交通大学沈超教授和香港城市大学王聪教授合作完成。国家网络安全学院2023级硕士生翟雨辰和郭晟男、2022级硕士生方正参与了该成果的研究工作。

图1 基于激活概念分析和控制的大型语言模型越狱防御框架概览
随着大型语言模型(Large Language Models,LLMs)的广泛应用,其安全问题也逐渐引发关注。尽管现有安全对齐策略能够在一定程度上限制模型输出有害内容,但其仍然容易受到越狱攻击(Jailbreak Attacks)的威胁。这类攻击能够绕过模型的安全防护,诱导其生成不合规的有害内容,带来了显著的安全隐患。针对这一问题,作者深入分析了越狱攻击的机制,并基于线性表示假说(Linear Representation Hypothesis,LRH)提出了一个创新越狱防御框架——JBShield。该框架通过定义并分析两类关键概念:有毒概念(Toxic Concepts)和越狱概念(Jailbreak Concepts),揭示了越狱提示的独特机理。研究发现,大型语言模型能够识别提示中的有害语义并激活有毒概念,但越狱提示通过激活越狱概念,将模型的输出从拒绝变为服从。JBShield包括两个核心组件:越狱检测和越狱缓解。在检测阶段,该方法通过判断输入是否同时激活有毒概念和越狱概念来识别越狱提示;在缓解阶段,该方法通过增强有害概念并削弱越狱概念,调整模型的隐藏表示,从而确保输出内容的安全性。实验结果显示,JBShield在多个开源大型语言模型上的平均越狱检测准确率达到95%,并将多种越狱攻击的平均成功率从61%降至2%。这一成果为大型语言模型的安全防护提供了全新的技术路线,具有重要的实际意义。
据悉,USENIX Security 于 1990年首次举办,已有三十多年历史,与 IEEE S&P、ACM CCS、NDSS 并称为信息安全领域国际四大顶级学术会议,也是中国计算机学会(CCF)推荐的A类会议,被录用的稿件反映了网络安全领域国际最前沿的研究水平。