微软详解防御间接提示注入攻击的技术方案

image

  微软近日公布了一套纵深防御策略,旨在应对企业环境中大型语言模型(LLM)面临的最严峻安全威胁——间接提示注入攻击。该公司的多层次防护方案结合了预防技术、检测工具和影响缓解策略,可有效防范攻击者在 LLM 处理的外部数据源中嵌入恶意指令的行为。

**核心要点** 1. 微软采用先进工具与严格管控措施防范 AI 提示注入 2. 用户授权机制与强数据策略协同防止数据泄露 3. 持续研究确保微软保持 AI 安全领域领先地位

  多层次预防与检测框架

  微软的防御策略围绕三大核心保护机制展开。该公司不仅实施了强化的系统提示方案,还开发了名为"聚光"(Spotlighting)的创新技术,帮助 LLM 区分合法用户指令与潜在恶意的外部内容。

提示注入

  "聚光"技术包含三种运行模式:定界模式(使用随机文本分隔符如<< {{文本}} >>)、数据标记模式(在词语间插入ˆ等特殊字符)以及编码模式(采用 base64 或 ROT13 等算法转换不可信文本)。

  在检测能力方面,微软部署了基于概率分类器的"提示防护盾"(Microsoft Prompt Shields)系统,可识别多语言外部内容中的提示注入攻击。该检测工具与 Microsoft Defender for Cloud 无缝集成,作为 AI 工作负载威胁防护的一部分,使安全团队能够通过 Defender XDR 门户监控和关联 AI 相关安全事件。该系统为企业提供了针对基础设施中 LLM 应用潜在攻击的全方位可视化能力。

  微软的研究计划包括开发名为 TaskTracker 的新型检测技术,该技术通过分析推理过程中的 LLM 内部状态(激活值)而非检查文本输入输出来实现检测。公司还举办了首个公开自适应提示注入挑战赛 LLMail-Inject,吸引了 800 多名参与者,并生成了超过 37 万条提示的数据集供后续研究使用。

  影响缓解措施

  为降低潜在安全影响,微软针对已知数据外泄方法(包括 HTML 图片注入和恶意链接生成)实施了确定性拦截机制。公司通过 Microsoft 365 Copilot 与敏感度标签、Microsoft Purview 数据丢失防护策略的集成,实现了细粒度数据治理控制。此外,"人在回路"(HitL)模式要求对潜在风险操作获取用户明确授权,Outlook Copilot 的"使用 Copilot 起草"功能便采用了该机制。

  这套综合方案从根本上解决了间接提示注入这一由现代 LLM 概率特性和语言灵活性引发的固有风险,使微软在 AI 安全创新领域保持领先地位。

  参考来源:Microsoft Details Defence Techniques Against Indirect Prompt Injection Attacks