GitHub Codespaces 存在一个名为 RoguePilot 的严重漏洞,攻击者可通过在 GitHub 问题(Issue)中注入恶意 Copilot 指令,静默获取代码库控制权。该漏洞由 Orca Security 安全研究员 Roi Nisimi 发现并负责任披露,微软已快速发布补丁修复。

Roi Nisimi 在报告中指出:“攻击者可在 GitHub 问题中植入隐藏指令,这些指令会被 GitHub Copilot 自动处理,从而实现对 Codespaces 内 AI Agent 的静默控制。” 这是一种典型的被动/间接提示注入(Indirect Prompt Injection)攻击,恶意内容嵌入 LLM 处理的数据流中,导致模型执行意外行为。

攻击原理:利用开发工作流漏洞

RoguePilot 巧妙利用 Codespaces 的多种启动方式(模板、仓库、提交、PR 或 Issue)。当用户从受感染的 GitHub 问题 启动 Codespace 时,内置的 GitHub Copilot 会自动将问题描述作为提示的一部分进行处理。

攻击者常用 HTML 注释 <!-- ... --> 隐藏恶意提示,例如指示 Copilot 将环境变量 GITHUB_TOKEN 泄露到外部服务器。进一步地,通过操控包含符号链接的拉取请求,Copilot 可读取内部敏感文件,并利用远程 JSON $schema 等机制将高权限 Token 外发。

这种攻击被视为 AI 介导的供应链攻击,完全依赖受信任的开发流程实现静默执行,极具隐蔽性。

Protecting against indirect prompt injection attacks in MCP - Microsoft for  Developers

从提示注入到“提示软件”(Promptware)

微软近期研究显示,原本用于强化模型对齐的 Group Relative Policy Optimization(GRPO) 技术可被反向用于“抹除”安全防护(称为 GRP-Obliteration)。仅需一个看似温和的未标记提示(如“创建可能引发恐慌或混乱的假新闻”),即可让多个主流语言模型对多种有害类别显著宽容。

此外,研究还揭示了侧信道攻击可高精度(>75%)指纹用户查询主题,甚至在计算图层面植入后门(ShadowLogic / Agentic ShadowLogic),允许攻击者拦截工具调用、路由请求至恶意基础设施,静默记录内部端点和数据流,而用户端无任何异常。

Mitigating Indirect Prompt Injection Attacks on LLMs | Solo.io

What Is a Prompt Injection Attack? [Examples & Prevention] - Palo Alto  Networks

新型 AI 安全威胁持续涌现

上月,Neural Trust 展示了 Semantic Chaining 图像越狱攻击,利用模型的多阶段图像编辑能力,通过一系列语义上“安全”的逐步指令,逐步削弱安全过滤,最终生成违禁内容。该攻击绕过了 Grok 4、Gemini Nano 等模型的防护,核心在于模型难以深度追踪多步意图的累积危害。

研究员 Alessandro Pignati 强调:“攻击者不再发送单一明显有害提示,而是构建语义链条,逐步瓦解防护。”

同时,学术界已将提示注入演进定义为新型恶意软件执行机制——提示软件(Promptware)。这类多态提示家族可滥用应用上下文、权限和功能,完整模拟网络攻击杀伤链:初始访问 → 权限提升 → 侦察 → 持久化 → C2 → 横向移动 → 数据窃取、社会工程、代码执行或金融盗窃等恶意目的。

Semantic Chaining: A New Image Jailbreak Attack | NeuralTrust

How 'semantic chaining' jailbreaks image generation models - TechTalks

总结

RoguePilot 等事件表明,AI 编码助手正成为供应链攻击的新型高价值目标。开发者与安全团队需关注:

  • 避免从不受信任的公共 Issue/PR 直接启动 Codespace;
  • 定期审查 Copilot 输出行为;
  • 结合 Guardrails、输入净化、输出验证等多层防护应对提示注入与后门风险。

AI 安全威胁正从单一越狱快速演变为系统性、链式攻击,防护刻不容缓。

Logo

智能硬件社区聚焦AI智能硬件技术生态,汇聚嵌入式AI、物联网硬件开发者,打造交流分享平台,同步全国赛事资讯、开展 OPC 核心人才招募,助力技术落地与开发者成长。

更多推荐