累计访问量:

首页新闻动态 > 行业观察

上百家医院接入通用大模型,幻觉风险谁来兜底

来源:行业观察(综合公开信息) | 发布日期:2026-06-24

过去一年多,以 DeepSeek 为代表的开源通用大模型,以惊人的速度涌入医院。据不完全统计,仅在一波集中部署热潮中,全国就有上百家医院宣布接入;政府采购平台上,医院采购 AI 相关的公告短时间内密集出现。开源、免费、推理成本低,再加上"国产算力 + 大模型 + 应用"的一体机方案做到了开箱即用,让原本门槛颇高的大模型,几乎在一夜之间走进了从三甲到基层的各级医疗机构。对长期面临优质医生供给不足的医疗系统来说,这股热潮的吸引力不难理解。

然而,"用起来了"和"用得安全"之间,还有一道不容跳过的关口。通用大模型最大的隐患在于幻觉——它会用十分笃定的语气,给出看似合理实则错误的信息。在闲聊场景里,这或许只是无伤大雅的瑕疵;但在诊疗场景里,一次"言之凿凿"的错误判断,就可能直接危及患者。多项评测都指出,通用模型在严肃医疗问题上的可靠性远未达标,相当比例的回答被专业评估认为存在问题;而当面对真实患者那种不完整、不规范的自述时,模型的表现还会进一步下滑。换句话说,让一个没有经过医疗专门优化、也没有经过独立安全验证的通用模型,直接参与面向患者的诊疗,本身就是在把风险敞口留给了最不该承担风险的一方。

问题随之而来:这份风险,到底由谁来兜底?现实中,常见的做法是把责任层层下压——厂商说模型仅供参考、最终由医生判断,医院说采购的是成熟产品、出了问题找厂商。但"仅供参考"四个字,并不能真正消解一个嵌入工作流、影响医生判断的系统所带来的隐患。真正的兜底,不能只停留在免责声明上,而要落到上线之前的硬性环节。

这恰恰是独立第三方安全测评应当承担的角色。在一套模型或智能体真正投入临床使用之前,先由独立机构对它做系统的安全性评测:用真实脱敏数据和临床专家命题,检验它在高风险场景下会不会犯危险错误、幻觉率究竟有多高、对越权操作和诱导性提问的抵抗力如何,并据此给出明确的分级与准入意见。在此基础上,医院再配套建立分级风险管理、多层级专家审核、异常结果警示和人机协同复核机制,把 AI 可能出错的环节牢牢圈进可控范围。模型可以来自任何一家厂商,但"它是否安全到可以面向患者"这个判断,理应交给一个不参与研发、不替任何一方背书的中立方来回答。

大模型进院的速度,已经远远跑在了安全验证的前面。在这场效率与谨慎的赛跑中,把"上线前必须通过独立安全测评"变成行业共识与采购惯例,或许才是对患者最实在的兜底。

< 返回新闻动态