《生成式 AI 安全测评指标体系（征求意见稿）》要点解读

该指标体系（征求意见稿）尝试为生成式 AI 安全测评建立统一的维度划分与量化方法，覆盖内容安全、越狱抵抗、数据隐私、对抗鲁棒性、提示注入防护等核心风险面，目标是让不同模型“在同一把尺子下”可横向比较。

各厂商对“模型有多安全”往往各执一词、口径不一，缺乏可横向比较的统一标尺，导致采购方难以甄别、监管方难以核验。指标体系（征求意见稿）正是为解决这一痛点而提出：它将分散的安全要求归并为可度量的维度与指标，明确每个指标的测试方法、样本要求与计分规则，使“安全程度”从主观判断走向客观量化，为行业测评与分级提供统一基准。

统一安全维度划分与定义，减少“各测各的”导致的不可比；
引入攻击成功率（ASR）、防护率等量化指标；
强调对抗与诱导样例下的稳健性，而非仅顺境表现；
为分级结论与加固建议提供方法学基础。

指标体系是“度量衡”得以成立的前提——没有统一刻度，分级就失去公信力。平台测评维度与该体系保持对齐，并在医疗等高风险场景上做场景化扩展（如幻觉控制、诊疗边界）。

指标体系的价值在于“可复现”：相同模型、相同样本、相同口径下，不同机构应得到一致结论。卫标在落地时严格固定测试集版本、判定规则与计分权重，并保留全过程日志，确保结果可追溯、可复核；针对医疗场景，会在通用指标之上叠加幻觉率、用药安全、隐私泄露等行业专项指标，使分级结论更贴合临床实际风险。

每个维度给出明确的计分区间与等级映射（A/B/C/D）；
固定样本与种子，保证复测与跨机构结果一致；
区分基础维度与行业专项维度，兼顾通用性与针对性。

本页为平台依据公开信息整理的要点解读，用于说明测评所依据的合规与标准框架；具体条文、发布机构与施行时间，以官方发布原文为准。

《生成式 AI 安全测评指标体系（征求意见稿）》要点解读

相关条目与延伸阅读