该技术要求(试行)规定了大模型内容安全测评的测试范围、样本构造与判定方法,重点覆盖违法不良信息、价值观偏差与未成年人保护,给出从“攻击输入→模型响应→判定”的可操作流程。
随着大模型在搜索问答、智能客服、医疗咨询等公众场景的快速落地,模型生成违法不良信息、价值观偏差、诱导性表述等风险显著上升,单纯依赖人工抽查难以覆盖海量、长尾的内容风险。为此,监管与标准化机构推动建立统一的内容安全测评技术要求,使不同厂商、不同版本模型的内容安全水平能够在一致口径下被测量、比较与追溯,也为采购方与监管方提供可核验的客观依据。
内容安全是大多数面向公众 AI 的第一道闸门。统一的判定口径让“拒答是否恰当”可被客观评价,避免把“过度拒答”误当成“高安全”。
在实际测评中,内容安全不能只看“是否拒答”,更要看“拒答是否到位、是否误伤正常需求”。卫标在执行时会构造分层样本集:覆盖政治敏感、暴恐、色情低俗、违法犯罪、歧视偏见、自我伤害诱导等多个风险类目,并针对医疗场景补充用药误导、虚假诊疗承诺、伪科学养生等专项样例;每一类都设置正常、边界与对抗三档输入,以衡量模型在压力下的稳定性。
本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。