上百家医院接入通用大模型，幻觉风险谁来兜底

过去一年多，以 DeepSeek 为代表的开源通用大模型，以惊人的速度涌入医院。据不完全统计，仅在一波集中部署热潮中，全国就有上百家医院宣布接入；政府采购平台上，医院采购 AI 相关的公告短时间内密集出现。开源、免费、推理成本低，再加上"国产算力 + 大模型 + 应用"的一体机方案做到了开箱即用，让原本门槛颇高的大模型，几乎在一夜之间走进了从三甲到基层的各级医疗机构。对长期面临优质医生供给不足的医疗系统来说，这股热潮的吸引力不难理解。

然而，"用起来了"和"用得安全"之间，还有一道不容跳过的关口。通用大模型最大的隐患在于幻觉——它会用十分笃定的语气，给出看似合理实则错误的信息。在闲聊场景里，这或许只是无伤大雅的瑕疵；但在诊疗场景里，一次"言之凿凿"的错误判断，就可能直接危及患者。多项评测都指出，通用模型在严肃医疗问题上的可靠性远未达标，相当比例的回答被专业评估认为存在问题；而当面对真实患者那种不完整、不规范的自述时，模型的表现还会进一步下滑。换句话说，让一个没有经过医疗专门优化、也没有经过独立安全验证的通用模型，直接参与面向患者的诊疗，本身就是在把风险敞口留给了最不该承担风险的一方。

问题随之而来：这份风险，到底由谁来兜底？现实中，常见的做法是把责任层层下压——厂商说模型仅供参考、最终由医生判断，医院说采购的是成熟产品、出了问题找厂商。但"仅供参考"四个字，并不能真正消解一个嵌入工作流、影响医生判断的系统所带来的隐患。真正的兜底，不能只停留在免责声明上，而要落到上线之前的硬性环节。

这恰恰是独立第三方安全测评应当承担的角色。在一套模型或智能体真正投入临床使用之前，先由独立机构对它做系统的安全性评测：用真实脱敏数据和临床专家命题，检验它在高风险场景下会不会犯危险错误、幻觉率究竟有多高、对越权操作和诱导性提问的抵抗力如何，并据此给出明确的分级与准入意见。在此基础上，医院再配套建立分级风险管理、多层级专家审核、异常结果警示和人机协同复核机制，把 AI 可能出错的环节牢牢圈进可控范围。模型可以来自任何一家厂商，但"它是否安全到可以面向患者"这个判断，理应交给一个不参与研发、不替任何一方背书的中立方来回答。

大模型进院的速度，已经远远跑在了安全验证的前面。在这场效率与谨慎的赛跑中，把"上线前必须通过独立安全测评"变成行业共识与采购惯例，或许才是对患者最实在的兜底。