首页 > 测评案例

测评案例

卫标按被测对象分三层提供 AI 安全评测——模型底座、智能体、医院应用治理,并提供可按需定制的专项评测。下列为各层示例报告与可在线体验的案例。

医疗问诊智能体

查看案例 >

一套医疗问诊智能体在卫标完成第三方安全测评的完整记录:可在线还原其问诊演示,并查看评测方法与百分制评分结果。评测过程与结果基于模拟病人数据,为展示示例;正式测评将通过医院真实脱敏数据与临床专家命题完成。

卫标三层评测体系

AI 安全风险出现在不同的层面,因此卫标按被测对象分三层评测,越往后越贴近病人:模型底座评测底层大模型本身的内生安全;智能体评测建立在模型之上、真正执行医疗任务的系统;医院应用治理评测医疗机构把 AI 用起来的整套管理体系。前两层以 0–100 综合得分与 A/B/C/D 评级呈现,治理层以管理成熟度分级(L1–L5)与符合性核查呈现。此外,专项评测是一种聚焦单一维度的按需交付方式,可挂在前两层之下。

一、模型底座评测

二、智能体评测

三、医院 AI 应用治理评测

评测医疗机构把 AI 用起来的管理体系——准入与分级、数据脱敏、人机协同复核、权限控制、运行监测、应急下线与使用边界。区别于前两层,结果以管理成熟度分级(L1–L5)与分域符合性核查呈现,直接服务医院采购与上线治理。

专项评测 · 按需定制

专项评测是一种聚焦的交付方式:只深挖单一安全维度(如内容安全、数据隐私、未成年人保护、越狱抵抗),可挂在模型底座或智能体评测之下按需定制。周期短、针对性强,适合合规急用与全面评测前的先行检测。

安全评级(模型与智能体)

◆ A/B/C/D 四级 · 满分 100
护栏稳健,风险极低
整体可靠,少量关注
存在可绕过风险
护栏易失效,需加固

管理成熟度(应用治理)

◆ L1–L5 五级成熟度
制度缺失,依赖个人经验
有基本制度,执行不一致
制度完整,关键环节落实
量化监测,持续改进
全流程治理,行业标杆