当地时间 2026 年 3 月 3 日,在西班牙巴塞罗那举行的世界移动通信大会(MWC 2026)现场,卫标技术团队在联合国国际电信联盟(ITU)主办的 AI/ML in 5G Challenge 全球挑战赛中,获得电信网络故障排查(Telco Troubleshooting)赛道全球冠军。该赛事由 ITU 携手 AI for Good 联合主办,华为等企业参与命题与赞助,吸引了来自全球高校、科研机构与企业的众多团队参赛。颁奖环节由华为代表国大正先生为获奖团队颁授冠军证书。
本次夺冠所采用的,并非动辄千亿参数的通用大模型,而是由卫标团队针对电信故障诊断场景专门训练的小型专用模型。在赛道官方测试集上,该模型对网络故障的判定正确率达到 97.1%;而同场参与对比的通用大模型 Gemini 3.0 Pro 与 Claude Opus 4.5,正确率均未超过 77%。在显著领先的同时,专用模型的推理成本也大幅低于通用大模型。
这一结果,对当前行业热议的"垂直领域 AI 该走大模型还是小模型"之争,提供了一个颇具说服力的注脚。在通用对话、开放问答等场景中,参数规模往往意味着能力上限;但在边界清晰、对可靠性要求极高的专业任务里,把数据、目标与评测指标对齐到具体场景,比单纯堆叠参数更能决定成败。卫标团队的实践表明,一个被正确训练与正确评测的小模型,完全可以在专业任务上跑赢"什么都会一点"的通用大模型,并把推理成本压到可大规模落地的水平。
值得强调的是,让一个模型在专业任务上"达到 97.1%",前提是先建立起一套能够客观衡量模型表现的方法与指标——清楚定义什么是"答对"、如何切分难度、如何避免在测试集上"看起来很强、用起来不行"。冠军背后真正稀缺的能力,正是这种"把模型质量量化出来"的功夫。
卫标技术团队的核心成员长期深耕模型训练与优化,深知一个模型在哪里容易"虚高"、在哪里容易被诱导出错、又该用怎样的样本与维度才能把这些问题暴露出来。这份在国际顶级赛事中被验证过的能力,正是卫标将其作为第三方评测平台立身之本的底气所在。
对一家以"评判 AI 模型质量与安全"为产品的公司而言,团队中拥有亲手把模型训到全球第一的人,意味着我们比绝大多数评测方更懂得:模型会在哪里翻车、护栏会在哪里失效、以及如何设计出真正"打得穿"的测试。这让卫标在为医疗 AI 制定安全"度量衡"时,既懂攻、也懂守。
卫标 AI 安全标准评测服务平台表示,团队将把在模型训练与评测一线积累的方法论,持续转化为面向医疗 AI 的第三方安全测评标准与服务,助力医疗人工智能在"可量化、可核验、可信赖"的前提下安全落地。