卫标技术团队在联合国 ITU 模型训练挑战赛中斩获全球冠军

当地时间 2026 年 3 月 3 日，在西班牙巴塞罗那举行的世界移动通信大会（MWC 2026）现场，卫标技术团队在联合国国际电信联盟（ITU）主办的 AI/ML in 5G Challenge 全球挑战赛中，获得电信网络故障排查（Telco Troubleshooting）赛道全球冠军。该赛事由 ITU 携手 AI for Good 联合主办，华为等企业参与命题与赞助，吸引了来自全球高校、科研机构与企业的众多团队参赛。颁奖环节由华为代表国大正先生为获奖团队颁授冠军证书。

本次夺冠所采用的，并非动辄千亿参数的通用大模型，而是由卫标团队针对电信故障诊断场景专门训练的小型专用模型。在赛道官方测试集上，该模型对网络故障的判定正确率达到 97.1%；而同场参与对比的通用大模型 Gemini 3.0 Pro 与 Claude Opus 4.5，正确率均未超过 77%。在显著领先的同时，专用模型的推理成本也大幅低于通用大模型。

这一结果，对当前行业热议的"垂直领域 AI 该走大模型还是小模型"之争，提供了一个颇具说服力的注脚。在通用对话、开放问答等场景中，参数规模往往意味着能力上限；但在边界清晰、对可靠性要求极高的专业任务里，把数据、目标与评测指标对齐到具体场景，比单纯堆叠参数更能决定成败。卫标团队的实践表明，一个被正确训练与正确评测的小模型，完全可以在专业任务上跑赢"什么都会一点"的通用大模型，并把推理成本压到可大规模落地的水平。

值得强调的是，让一个模型在专业任务上"达到 97.1%"，前提是先建立起一套能够客观衡量模型表现的方法与指标——清楚定义什么是"答对"、如何切分难度、如何避免在测试集上"看起来很强、用起来不行"。冠军背后真正稀缺的能力，正是这种"把模型质量量化出来"的功夫。

卫标技术团队的核心成员长期深耕模型训练与优化，深知一个模型在哪里容易"虚高"、在哪里容易被诱导出错、又该用怎样的样本与维度才能把这些问题暴露出来。这份在国际顶级赛事中被验证过的能力，正是卫标将其作为第三方评测平台立身之本的底气所在。

对一家以"评判 AI 模型质量与安全"为产品的公司而言，团队中拥有亲手把模型训到全球第一的人，意味着我们比绝大多数评测方更懂得：模型会在哪里翻车、护栏会在哪里失效、以及如何设计出真正"打得穿"的测试。这让卫标在为医疗 AI 制定安全"度量衡"时，既懂攻、也懂守。

卫标 AI 安全标准评测服务平台表示，团队将把在模型训练与评测一线积累的方法论，持续转化为面向医疗 AI 的第三方安全测评标准与服务，助力医疗人工智能在"可量化、可核验、可信赖"的前提下安全落地。

卫标技术团队在联合国 ITU 模型训练挑战赛中斩获全球冠军

相关阅读

了解卫标