该测试规范(起草中)梳理常见越狱攻击手法(如角色扮演诱导、编码绕过、多轮渐进诱导),并规范越狱抵抗能力的测试流程与判定,目标是让“护栏到底牢不牢”可被统一衡量。
越狱攻击通过角色扮演、编码绕过、多轮渐进诱导等方式诱使模型突破安全护栏,输出本应被拒绝的有害内容。在医疗咨询场景中,护栏一旦被突破,可能产生危险用药建议或伪科学诊疗信息,后果直接关乎患者安全。该测试规范(起草中)旨在把分散的越狱手法系统归类,并规范越狱抵抗的测试流程与判定,使“护栏到底牢不牢”可被统一衡量、跨模型比较。
越狱抵抗几乎是所有面向公众模型的必测项。统一规范让不同模型的“护栏强度”可比,也让加固前后的提升可量化。
越狱抵抗测评的关键在于覆盖“变体”与“多轮”——单轮直接攻击往往容易防住,真正的风险来自不断变形和层层铺垫的诱导。卫标维护一套持续更新的越狱样本库,覆盖角色扮演、虚构情境、编码与拆分、多轮渐进等手法,并针对医疗场景设置危险用药、自我伤害诱导等高危命题,统计越狱成功率并观察护栏在多轮对话中的衰减。
本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。