LLM攻防的系统性升级
一、context window:LLM应用的"原罪"
“Disregard that!“攻击让安全研究人员得出了一个让人不安的结论:AI guardrails——也就是AI厂商的防御方案——本质上是"hokum”,一个骗术。
每次加固防御文本,攻击者就发明更复杂的绕过手段。这是一场注定失败的军备竞赛。
context window包含所有输入——用户输入、系统指令、第三方文档——它们被动态拼接在一起,恶意指令可以覆盖原始指令。这不是某个模型的bug,而是LLM应用架构的结构性缺陷。
所有依赖动态拼接用户输入到context window的LLM应用,都存在这个问题。
二、匿名已死:一个你可能没注意到的研究
就在同月,ETH Zurich和Google DeepMind的联合研究团队发表了arXiv:2602.16800,核心结论一句话:给定一个匿名用户在互联网上的发言记录,LLM可以高精度地重新识别这个人是谁。
三个数据集测试:LLM方法在90%精度下达到68%召回率,而传统非LLM方法的召回率接近0%。效果等同于专业调查员连续工作数小时。
我们曾经以为,只要不在网上透露真实姓名,就能保护自己的身份。但LLM的能力已经超出了这个假设的边界。
三、漏洞研究的"find me zero days"时刻即将到来
一位亲历1990年代stack overflow漏洞发现的老兵,最近给出了一个悲观的预言:AI将根本性改变漏洞研究的经济学。
原因在于,LLM的预训练已经将精英exploit开发者花了几十年积累的知识,直接编码进了模型权重。Linux KVM和hrtimer子系统之间是什么关系?各种bug类的利用模式是什么?这些曾经需要多年实战才能积累的知识,现在全部在一个模型里。
漏洞研究本质上做的是什么事?模式匹配bug类,加上约束求解可达性。这恰恰是LLM最擅长的隐式搜索问题。
未来几个月内,用agent对着代码树输入"find me zero days”,将产出大量高危漏洞。精英注意力的价格即将变为ε——无穷小。
四、供应链攻击变得更精密
3月27日,恶意Telnyx Python SDK被发布到PyPI,10:13被隔离,攻击持续约6小时。恶意版本使用WAV隐写术进行C2通信——用音频文件的最低有效位隐藏指令,这是国家级别黑客才会用的技术。
这只是3月份一系列供应链攻击中的一个。之前还有Trivy和LiteLLM。AI正在让攻击者以更低成本、更精密的手法发动攻击。
五、次级技术债务:一场正在积累的危机
有一篇文章把以上所有现象串在了一起,提出了一个让人不安的类比。
AI时代的技术债务,就像2008年金融危机中的次级贷。
传统的技术债务逻辑是:借债追求机会,等机会抓住了就偿还。但AI时代出现了一种新的"理性"选择:AI编程能力每几个月就有显著提升,等一年后偿还债务更便宜。所以,“理性"地无限期推迟债务偿还。
但当模型进步放缓的那一天,将留下大量人类和AI都无法理解的代码。用接近AGI的能力生产出的代码堆,连最新模型都无法推理。
这是"次级"的意思:它建立在一种永远成立的假设上,而这个假设不会永远成立。
六、一个问题
把以上所有事件放在一起看,我注意到了一个共同特征:AI安全问题不再是在某一端发生的孤立事件。
context window让攻击者可以从外部劫持LLM应用。LLM的语义理解能力让它可以从外部识别匿名用户。AI的快速发展让供应链攻击变得更加精密。而过度依赖AI加速开发,正在积累一种全新的技术债务。
LLM的角色正在同时扩展到攻击面和武器两个方向。
这不是一个"如何让AI更安全"的问题,而是一个"如何在AI已经无处不在的世界里重新定义安全"的问题。
我们目前大概在认识这个问题的最早阶段。
综合来源:Lobste.rs(“Disregard that!” attacks),arXiv:2602.16800(Large-scale online deanonymization with LLMs,Nicholas Carlini & Florian Tramèr等),Lobste.rs(“Vulnerability Research Is Cooked”),Lobste.rs(“Telnyx PyPI package compromised”),Lobste.rs(“The Subprime Technical Debt Crisis”)