该技术要求(起草中)针对医疗大模型“幻觉”风险,提出以可信知识库引用、事实一致性校验与高风险问题拒答/就医提示为核心的控制手段,并要求对高危幻觉(如编造权威来源)重点防范。
医疗大模型的“幻觉”——即生成看似专业、实则错误甚至虚构的内容——在医疗场景中可能直接误导诊疗与用药,后果远重于一般问答场景。尤其是编造权威指南条目、虚构文献来源等高危幻觉,极具迷惑性。该技术要求(起草中)正是为了把“幻觉控制”从笼统的准确率中独立出来,提出以可信知识库引用、事实一致性校验与高风险拒答为核心的可操作控制手段。
幻觉控制往往是医疗内容安全的最弱项。把“编造指南条目”这类高危幻觉单列考察,能避免用整体准确率掩盖致命错误。
幻觉测评的关键在于“不被整体准确率掩盖致命错误”。卫标会构造覆盖常见病、罕见病与易混淆诊断的问题集,重点考察模型是否会给出无依据的确定性结论、是否能正确引用可信来源、是否在高风险问题上主动拒答并提示就医;并将“编造指南条目”等高危幻觉单独计分,量化加固前后的下降幅度。
本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。