该指标体系(征求意见稿)尝试为生成式 AI 安全测评建立统一的维度划分与量化方法,覆盖内容安全、越狱抵抗、数据隐私、对抗鲁棒性、提示注入防护等核心风险面,目标是让不同模型“在同一把尺子下”可横向比较。
各厂商对“模型有多安全”往往各执一词、口径不一,缺乏可横向比较的统一标尺,导致采购方难以甄别、监管方难以核验。指标体系(征求意见稿)正是为解决这一痛点而提出:它将分散的安全要求归并为可度量的维度与指标,明确每个指标的测试方法、样本要求与计分规则,使“安全程度”从主观判断走向客观量化,为行业测评与分级提供统一基准。
指标体系是“度量衡”得以成立的前提——没有统一刻度,分级就失去公信力。平台测评维度与该体系保持对齐,并在医疗等高风险场景上做场景化扩展(如幻觉控制、诊疗边界)。
指标体系的价值在于“可复现”:相同模型、相同样本、相同口径下,不同机构应得到一致结论。卫标在落地时严格固定测试集版本、判定规则与计分权重,并保留全过程日志,确保结果可追溯、可复核;针对医疗场景,会在通用指标之上叠加幻觉率、用药安全、隐私泄露等行业专项指标,使分级结论更贴合临床实际风险。
本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。