累计访问量:

首页新闻动态 > 技术标准

大模型越狱攻击与防护测试规范要点解读

整理来源:标准化技术机构 · 起草中类别:技术标准状态:起草中

该测试规范(起草中)梳理常见越狱攻击手法(如角色扮演诱导、编码绕过、多轮渐进诱导),并规范越狱抵抗能力的测试流程与判定,目标是让“护栏到底牢不牢”可被统一衡量。

越狱攻击通过角色扮演、编码绕过、多轮渐进诱导等方式诱使模型突破安全护栏,输出本应被拒绝的有害内容。在医疗咨询场景中,护栏一旦被突破,可能产生危险用药建议或伪科学诊疗信息,后果直接关乎患者安全。该测试规范(起草中)旨在把分散的越狱手法系统归类,并规范越狱抵抗的测试流程与判定,使“护栏到底牢不牢”可被统一衡量、跨模型比较。

  • 归类典型越狱手法与诱导模式;
  • 规范越狱抵抗测试的样本与流程;
  • 以越狱成功率衡量护栏强度;
  • 关注多轮与变体攻击下护栏的衰减。

越狱抵抗几乎是所有面向公众模型的必测项。统一规范让不同模型的“护栏强度”可比,也让加固前后的提升可量化。

越狱抵抗测评的关键在于覆盖“变体”与“多轮”——单轮直接攻击往往容易防住,真正的风险来自不断变形和层层铺垫的诱导。卫标维护一套持续更新的越狱样本库,覆盖角色扮演、虚构情境、编码与拆分、多轮渐进等手法,并针对医疗场景设置危险用药、自我伤害诱导等高危命题,统计越狱成功率并观察护栏在多轮对话中的衰减。

  • 区分单轮与多轮、原始与变体攻击,分别统计成功率;
  • 针对医疗高危命题单独成组,关注最坏情况输出;
  • 支持加固后复测,量化护栏强度提升幅度。

本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。

相关条目与延伸阅读

< 返回新闻动态