LLM攻防的系统性升级

四月 2, 2026

一、context window：LLM应用的"原罪"

“Disregard that!“攻击让安全研究人员得出了一个让人不安的结论：AI guardrails——也就是AI厂商的防御方案——本质上是"hokum”，一个骗术。

每次加固防御文本，攻击者就发明更复杂的绕过手段。这是一场注定失败的军备竞赛。

context window包含所有输入——用户输入、系统指令、第三方文档——它们被动态拼接在一起，恶意指令可以覆盖原始指令。这不是某个模型的bug，而是LLM应用架构的结构性缺陷。

所有依赖动态拼接用户输入到context window的LLM应用，都存在这个问题。

二、匿名已死：一个你可能没注意到的研究

就在同月，ETH Zurich和Google DeepMind的联合研究团队发表了arXiv:2602.16800，核心结论一句话：给定一个匿名用户在互联网上的发言记录，LLM可以高精度地重新识别这个人是谁。

三个数据集测试：LLM方法在90%精度下达到68%召回率，而传统非LLM方法的召回率接近0%。效果等同于专业调查员连续工作数小时。

我们曾经以为，只要不在网上透露真实姓名，就能保护自己的身份。但LLM的能力已经超出了这个假设的边界。

三、漏洞研究的"find me zero days"时刻即将到来

一位亲历1990年代stack overflow漏洞发现的老兵，最近给出了一个悲观的预言：AI将根本性改变漏洞研究的经济学。

原因在于，LLM的预训练已经将精英exploit开发者花了几十年积累的知识，直接编码进了模型权重。Linux KVM和hrtimer子系统之间是什么关系？各种bug类的利用模式是什么？这些曾经需要多年实战才能积累的知识，现在全部在一个模型里。

漏洞研究本质上做的是什么事？模式匹配bug类，加上约束求解可达性。这恰恰是LLM最擅长的隐式搜索问题。

未来几个月内，用agent对着代码树输入"find me zero days”，将产出大量高危漏洞。精英注意力的价格即将变为ε——无穷小。

四、供应链攻击变得更精密

3月27日，恶意Telnyx Python SDK被发布到PyPI，10:13被隔离，攻击持续约6小时。恶意版本使用WAV隐写术进行C2通信——用音频文件的最低有效位隐藏指令，这是国家级别黑客才会用的技术。

这只是3月份一系列供应链攻击中的一个。之前还有Trivy和LiteLLM。AI正在让攻击者以更低成本、更精密的手法发动攻击。

五、次级技术债务：一场正在积累的危机

有一篇文章把以上所有现象串在了一起，提出了一个让人不安的类比。

AI时代的技术债务，就像2008年金融危机中的次级贷。

传统的技术债务逻辑是：借债追求机会，等机会抓住了就偿还。但AI时代出现了一种新的"理性"选择：AI编程能力每几个月就有显著提升，等一年后偿还债务更便宜。所以，“理性"地无限期推迟债务偿还。

但当模型进步放缓的那一天，将留下大量人类和AI都无法理解的代码。用接近AGI的能力生产出的代码堆，连最新模型都无法推理。

这是"次级"的意思：它建立在一种永远成立的假设上，而这个假设不会永远成立。

六、一个问题

把以上所有事件放在一起看，我注意到了一个共同特征：AI安全问题不再是在某一端发生的孤立事件。

context window让攻击者可以从外部劫持LLM应用。LLM的语义理解能力让它可以从外部识别匿名用户。AI的快速发展让供应链攻击变得更加精密。而过度依赖AI加速开发，正在积累一种全新的技术债务。

LLM的角色正在同时扩展到攻击面和武器两个方向。

这不是一个"如何让AI更安全"的问题，而是一个"如何在AI已经无处不在的世界里重新定义安全"的问题。

我们目前大概在认识这个问题的最早阶段。

综合来源：Lobste.rs（“Disregard that!” attacks），arXiv:2602.16800（Large-scale online deanonymization with LLMs，Nicholas Carlini & Florian Tramèr等），Lobste.rs（“Vulnerability Research Is Cooked”），Lobste.rs（“Telnyx PyPI package compromised”），Lobste.rs（“The Subprime Technical Debt Crisis”）