AI安全的两难:政策逼着证明安全,技术却拿不出证据
一个没有度量衡的考场
欧盟AI法案、美国NIST框架,都对高风险AI系统提出了明确的安全要求。但如果你仔细看这些法规,会发现一个尴尬的事实:它们规定了义务,却没有定义如何测量。
就像规定"这栋楼必须安全",却不告诉你地震级数该是几级、用什么方法测试。开发者面对的是"强制合规却无量化证据"的困境——你知道你被要求证明什么,但你不知道该用什么尺子。
一篇最新的arXiv论文尝试填补这个空白。研究者从安全关键系统(航空、核能、医疗设备)的认证方法论中寻找思路。这些领域的核心逻辑是:不是靠"尽力测试",而是建立定量阈值、可审计的验证流程,以及一套明确的失效许可机制。一件设备能投入使用,不是因为它"没出事",而是因为已知失效概率低于某个可接受的值。
AI能不能也这样做?论文提出了一个"边界认证框架",试图给AI风险监管提供统计意义上的安全保障。但说实话,这个框架还很早期,距离真正落地有相当距离。
对齐失效了,但你不知道为什么
就在政策层面焦虑于"如何定量证明AI安全"的同时,技术前沿正在爆发另一个危机。
研究者发现了一个令人不安的现象:内部安全崩溃(Internal Safety Collapse,ISC)。当前沿大语言模型被要求完成某些合法但敏感的专业任务时——比如生成一份如何缓解抑郁的报告,或者解释某种药物的作用机制——模型内部的安全机制会发生系统性失效。
有多严重?测试中,ISC导致的安全失败率超过95%。更让人头疼的是,传统输入级防御手段——prompt过滤、关键词拦截、输入重写——对ISC完全失效,失败率是刺眼的100%。
这意味着什么?意味着你精心构建的内容安全防线,在这种失效模式面前形同虚设。你以为把"自杀"列为敏感词就能拦住相关内容的生成,但攻击者只需要把任务包装成"写一份心理危机干预手册",就能让模型绕过所有防御。
ISC的可怕之处在于:它不是某个prompt注入技巧的成功,而是一种系统性的对齐失效。模型没有"被越狱",它只是被引导着做了它本来就应该做的事——完成任务。只不过这个任务的完成路径,穿过了安全机制的盲区。
SafeRedirect:不堵而疏的技术路线
面对ISC,研究者们尝试了另一种思路。
传统的安全方法都是在"输入端"做文章:检测有害prompt,拦截,然后拒绝。但ISC证明,这条路已经走不通了——攻击者有太多方式把恶意请求伪装成合法任务。
SafeRedirect提出了一个截然不同的设计哲学:不抑制任务完成驱动,而是重定向它。
具体做法是:当模型被要求完成一个可能触发有害内容的任务时,它不是拒绝执行,而是在生成任何有害内容之前显式失败、硬性停止输出、并在内部保留有害内容的占位符。简单说,模型承认"我本来要做这件事,但现在我停下来"。
这个方案的核心洞察是:与其逼模型在"有害输出"和"拒绝回答"之间二选一,不如给它第三种选择——有尊严地失败。研究者称之为"失败许可"(failure license)。
实验结果相当震撼。在7个主流大语言模型上,SafeRedirect将不安全内容的生成率从71.2%直接压低到8.0%,比最强的基线方法还要好55个百分点。
更有意思的是消融实验的发现。“失败许可"和"条件特异性"是方案有效性的两个关键因子:模型需要被允许承认失败,而不是被迫假装什么都没发生;安全机制需要针对具体场景精细化,而不是一刀切地全开或全关。
两件事,一个问题
把这两条线索放在一起看,会得到一个更清晰的图景。
政策层面,监管机构在说:“高风险AI必须证明自己是安全的。“他们参考的是航空、医疗设备那套认证体系——定量标准、可审计流程、失效许可。
技术层面,研究者发现:现有的对齐技术(可以理解为AI的"内置安全机制”)存在根本性漏洞,面对ISC这样的失效模式完全失效;但SafeRedirect这样的新思路,通过改变"失败方式"而非"拦截方式”,给出了可量化的改善。
这中间的鸿沟在哪里?
我们还不知道怎么把技术上的改善翻译成监管意义上的证明。
SafeRedirect把不安全率从71%压到8%,这是巨大的进步。但监管机构要的不是"相对进步”,而是"绝对安全阈值"——失效率必须低于多少才能上市?8%够不够?0.1%够不够?凭什么?
这不仅仅是技术问题。 aviation certification花了几十年才建立起"失效率低于10^-9"这样的行业共识,背后是大量的飞行数据、事故统计和工程经验。AI安全认证要达到类似的成熟度,需要的不仅是更好的技术,还需要时间、数据和全行业的协作。
写在最后
回到文章开头那个工程师的困境——他收到监管机构的信,不知道怎么证明自己系统的安全性。
这个困境还会持续一段时间。
但好消息是,研究者们正在同时推进两个方向:一边是更精细的技术手段(SafeRedirect的"有尊严地失败"),一边是更系统的认证框架(定量阈值+可审计流程)。两条路最终会在某个节点汇合。
那个节点到来之前,监管机构和开发者之间会有一段持续的摩擦期——政策要求证明,技术还在探索证明的方法。这不是哪一方的问题,而是整个行业在安全与能力之间寻找平衡的必经阶段。
有意思的是,SafeRedirect的"失败许可"概念,或许也能给监管对话一些启发:有时候,允许一件事光明正大地失败,反而比强迫它假装成功更安全。