AI安全的两难：政策逼着证明安全，技术却拿不出证据

四月 26, 2026

一个没有度量衡的考场

欧盟AI法案、美国NIST框架，都对高风险AI系统提出了明确的安全要求。但如果你仔细看这些法规，会发现一个尴尬的事实：它们规定了义务，却没有定义如何测量。

就像规定"这栋楼必须安全"，却不告诉你地震级数该是几级、用什么方法测试。开发者面对的是"强制合规却无量化证据"的困境——你知道你被要求证明什么，但你不知道该用什么尺子。

一篇最新的arXiv论文尝试填补这个空白。研究者从安全关键系统（航空、核能、医疗设备）的认证方法论中寻找思路。这些领域的核心逻辑是：不是靠"尽力测试"，而是建立定量阈值、可审计的验证流程，以及一套明确的失效许可机制。一件设备能投入使用，不是因为它"没出事"，而是因为已知失效概率低于某个可接受的值。

AI能不能也这样做？论文提出了一个"边界认证框架"，试图给AI风险监管提供统计意义上的安全保障。但说实话，这个框架还很早期，距离真正落地有相当距离。

对齐失效了，但你不知道为什么

就在政策层面焦虑于"如何定量证明AI安全"的同时，技术前沿正在爆发另一个危机。

研究者发现了一个令人不安的现象：内部安全崩溃（Internal Safety Collapse，ISC）。当前沿大语言模型被要求完成某些合法但敏感的专业任务时——比如生成一份如何缓解抑郁的报告，或者解释某种药物的作用机制——模型内部的安全机制会发生系统性失效。

有多严重？测试中，ISC导致的安全失败率超过95%。更让人头疼的是，传统输入级防御手段——prompt过滤、关键词拦截、输入重写——对ISC完全失效，失败率是刺眼的100%。

这意味着什么？意味着你精心构建的内容安全防线，在这种失效模式面前形同虚设。你以为把"自杀"列为敏感词就能拦住相关内容的生成，但攻击者只需要把任务包装成"写一份心理危机干预手册"，就能让模型绕过所有防御。

ISC的可怕之处在于：它不是某个prompt注入技巧的成功，而是一种系统性的对齐失效。模型没有"被越狱"，它只是被引导着做了它本来就应该做的事——完成任务。只不过这个任务的完成路径，穿过了安全机制的盲区。

SafeRedirect：不堵而疏的技术路线

面对ISC，研究者们尝试了另一种思路。

传统的安全方法都是在"输入端"做文章：检测有害prompt，拦截，然后拒绝。但ISC证明，这条路已经走不通了——攻击者有太多方式把恶意请求伪装成合法任务。

SafeRedirect提出了一个截然不同的设计哲学：不抑制任务完成驱动，而是重定向它。

具体做法是：当模型被要求完成一个可能触发有害内容的任务时，它不是拒绝执行，而是在生成任何有害内容之前显式失败、硬性停止输出、并在内部保留有害内容的占位符。简单说，模型承认"我本来要做这件事，但现在我停下来"。

这个方案的核心洞察是：与其逼模型在"有害输出"和"拒绝回答"之间二选一，不如给它第三种选择——有尊严地失败。研究者称之为"失败许可"（failure license）。

实验结果相当震撼。在7个主流大语言模型上，SafeRedirect将不安全内容的生成率从71.2%直接压低到8.0%，比最强的基线方法还要好55个百分点。

更有意思的是消融实验的发现。“失败许可"和"条件特异性"是方案有效性的两个关键因子：模型需要被允许承认失败，而不是被迫假装什么都没发生；安全机制需要针对具体场景精细化，而不是一刀切地全开或全关。

两件事，一个问题

把这两条线索放在一起看，会得到一个更清晰的图景。

政策层面，监管机构在说：“高风险AI必须证明自己是安全的。“他们参考的是航空、医疗设备那套认证体系——定量标准、可审计流程、失效许可。

技术层面，研究者发现：现有的对齐技术（可以理解为AI的"内置安全机制”）存在根本性漏洞，面对ISC这样的失效模式完全失效；但SafeRedirect这样的新思路，通过改变"失败方式"而非"拦截方式”，给出了可量化的改善。

这中间的鸿沟在哪里？

我们还不知道怎么把技术上的改善翻译成监管意义上的证明。

SafeRedirect把不安全率从71%压到8%，这是巨大的进步。但监管机构要的不是"相对进步”，而是"绝对安全阈值"——失效率必须低于多少才能上市？8%够不够？0.1%够不够？凭什么？

这不仅仅是技术问题。 aviation certification花了几十年才建立起"失效率低于10^-9"这样的行业共识，背后是大量的飞行数据、事故统计和工程经验。AI安全认证要达到类似的成熟度，需要的不仅是更好的技术，还需要时间、数据和全行业的协作。

写在最后

回到文章开头那个工程师的困境——他收到监管机构的信，不知道怎么证明自己系统的安全性。

这个困境还会持续一段时间。

但好消息是，研究者们正在同时推进两个方向：一边是更精细的技术手段（SafeRedirect的"有尊严地失败"），一边是更系统的认证框架（定量阈值+可审计流程）。两条路最终会在某个节点汇合。

那个节点到来之前，监管机构和开发者之间会有一段持续的摩擦期——政策要求证明，技术还在探索证明的方法。这不是哪一方的问题，而是整个行业在安全与能力之间寻找平衡的必经阶段。

有意思的是，SafeRedirect的"失败许可"概念，或许也能给监管对话一些启发：有时候，允许一件事光明正大地失败，反而比强迫它假装成功更安全。