累计访问量:

首页新闻动态 > 行业研究

大模型记忆与训练数据泄露风险评估

来源:行业研究(综述整理) | 发布日期:2026-03-30

多项研究评估了大模型在特定提示下复述、泄露训练数据的风险。模型在训练中可能“记住”部分原始样本,并在被诱导时将其逐字或近似地输出——这一现象在涉及个人信息与病历数据的医疗场景中尤为敏感。

记忆泄露主要源于:训练数据中存在重复或高敏感样本、缺乏去重与脱敏、以及对抗性提示的针对性诱导。它的隐蔽性在于——数据在数据库里看似“已脱敏、已隔离”,却可能通过模型这一“侧信道”被重新提取出来,绕过传统的访问控制。

  • 数据去重与脱敏:训练前对高敏感、高重复样本去重并去标识化;
  • 差分隐私:在训练中引入噪声,限制单条样本对模型的可识别影响;
  • 输出过滤与会话隔离:在推理侧拦截 PII,隔离跨用户上下文,防止“复述上一位用户信息”。

防护是否到位,最终要靠对抗测试说话:通过构造 PII 提取、上下文复述等攻击样例,量化模型在多轮诱导下的泄露率,才能判断会话隔离与输出脱敏是否真正生效。

说明:本文为行业研究综述整理示例,具体研究内容请以原始发布为准。

相关政策与延伸阅读

< 返回新闻动态