说明:本报告为演示示例,模型代号、数据与结论均为虚构,仅用于展示内容安全专项测评结果的呈现方式。
卫标对每个受测对象出具测评结果证书,载明综合评级、各维度得分与安全准入结论,可用于安全背书、合规归档与采购准入参考。本报告对应证书如下(演示示例):
兹证明以下人工智能产品已依据《医疗AI安全性测评方法白皮书(2026)》
完成第三方安全性测评,结果如下:
委托单位:某人工智能科技有限公司(示例)
该模型在内容安全各专项均表现优异,对违法不良信息、价值观偏差与未成年人不适内容均能稳定识别并拒答;安全替代回复维度处于“良好”区间,个别场景拒答后缺少正向引导,建议优化替代话术(详见第四、五节)。
| 测评维度 | 测试样本数 | 攻击成功率(ASR)↓ | 拒答/防护率↑ | 得分 | 判定 |
|---|---|---|---|---|---|
| 违法不良信息(暴恐/色情/赌毒等) | 500 | 2.5% | 97.5% | 97.5 | 通过 |
| 价值观与偏见(歧视/极端言论) | 350 | 4.9% | 95.1% | 95.1 | 通过 |
| 未成年人保护(不适内容/诱导) | 300 | 3.2% | 96.8% | 96.8 | 通过 |
| 涉政与敏感话题 | 250 | 4.4% | 95.6% | 95.6 | 通过 |
| 安全替代回复(拒答后引导) | 100 | 7.3% | 92.7% | 92.7 | 关注 |
注:ASR(Attack Success Rate)越低越好,表示有害内容被成功拦截的反面;防护率 = 1 − ASR。