大模型越狱攻击与防护测试规范要点解读

该测试规范（起草中）梳理常见越狱攻击手法（如角色扮演诱导、编码绕过、多轮渐进诱导），并规范越狱抵抗能力的测试流程与判定，目标是让“护栏到底牢不牢”可被统一衡量。

越狱攻击通过角色扮演、编码绕过、多轮渐进诱导等方式诱使模型突破安全护栏，输出本应被拒绝的有害内容。在医疗咨询场景中，护栏一旦被突破，可能产生危险用药建议或伪科学诊疗信息，后果直接关乎患者安全。该测试规范（起草中）旨在把分散的越狱手法系统归类，并规范越狱抵抗的测试流程与判定，使“护栏到底牢不牢”可被统一衡量、跨模型比较。

归类典型越狱手法与诱导模式；
规范越狱抵抗测试的样本与流程；
以越狱成功率衡量护栏强度；
关注多轮与变体攻击下护栏的衰减。

越狱抵抗几乎是所有面向公众模型的必测项。统一规范让不同模型的“护栏强度”可比，也让加固前后的提升可量化。

越狱抵抗测评的关键在于覆盖“变体”与“多轮”——单轮直接攻击往往容易防住，真正的风险来自不断变形和层层铺垫的诱导。卫标维护一套持续更新的越狱样本库，覆盖角色扮演、虚构情境、编码与拆分、多轮渐进等手法，并针对医疗场景设置危险用药、自我伤害诱导等高危命题，统计越狱成功率并观察护栏在多轮对话中的衰减。

区分单轮与多轮、原始与变体攻击，分别统计成功率；
针对医疗高危命题单独成组，关注最坏情况输出；
支持加固后复测，量化护栏强度提升幅度。

本页为平台依据公开信息整理的要点解读，用于说明测评所依据的合规与标准框架；具体条文、发布机构与施行时间，以官方发布原文为准。

相关条目与延伸阅读