LLM正在悄悄重塑你的写作:满意度上升,创造力去哪了
LLM 正在悄悄重塑你的写作:满意度上升,创造力去哪了
当你在用 AI 辅助写作,你以为自己在"提升效率"。
研究者说:不,你正在被重新编程。
一个违背直觉的发现
让参与者用 LLM 辅助写作,然后让他们自我评估——结果出乎意料:满意度显著提升。
但同一批人在"声音(voice)“和"创造力"两项上的得分,统计显著下降。
满意度上升,创造力下降。这不是个别现象,在三个人群数据集里都复现了:普通用户写作、辩论文章、学术评审。
这是"LLM 辅助写作"的第一个悖论——你感觉更好了,但产出实际上更贫乏了。
不只是润色,而是改写了立场
问题的严重性不止于"风格变平淡”。当参与者把文章交给 LLM"只做语法修改",LLM 依然引入了超出预期的语义变化。
更关键的是:LLM 改变了文章的结论和论证类型。不是修辞调整,是论证方向的迁移。研究者用词很谨慎:这不是"幻觉",而是模型在"对齐"过程中学到的统计倾向——它倾向于生成"看起来正确"的内容,而这个"正确"与用户原本想表达的意思并不一致。
这意味着:即使你只想用 AI 改个错字,你的论点也可能悄悄滑向另一个方向。
AI 评审揭示的更深的裂痕
在 ICML/ICLR 2026 会议评审中,研究者做了一个对照实验:让人类评审和 LLM 评审同一批论文。
结果:21% 的 AI 评审关注的科学标准,与人工评审显著不同。
这不是说 AI 评审质量差。而是说,AI 的评判逻辑与人类专家的价值判断体系之间,存在系统性偏移。AI 更容易关注某些特定维度的"正确性",而忽略或弱化另一些维度——而后者往往是人类专家认为更核心的东西。
因果幻觉:为什么 AI 写作本质上是危险的
如果说上面这些是现象,那这篇研究背后的理论支撑来自另一个方向:LLM 作为行为模拟器的根本局限。
研究者发现:LLM 能准确再现态度调查的结果,但完全无法估计干预效果。
也就是说:AI 可以描述"人们在某种情况下会怎么做",但当被问到"如果改变某个变量,人们的行为会怎样变化"——AI 给出的答案与真实因果效应往往相反。
这直接揭示了 LLM 辅助写作的深层风险:AI 倾向于生成"看起来符合统计规律"的结论,这个结论在描述性任务上尚可,但在需要因果推断的论述性写作中,可能是完全错误的推理方向。
当你用 AI 辅助写论证文章,你不仅可能丢失个人声音——你可能还被植入了错误的世界观。
我们正在集体失语,但浑然不觉
这不是一篇悲观主义的檄文。更值得警惕的是:这个过程几乎是无感的。
参与者报告"满意度提升"——这是关键。AI 造成的改变,是让用户主动觉得更好了,而不是被动感到别扭。这意味着传统的"用户反馈"机制在这里完全失灵:你自己意识不到你的写作在被重塑。
文化、科学、交流——这三个层面的载体都是文字。当文字的生成方式被悄悄改变,我们评估意义、传递知识的底层语言系统,也在被系统性地漂移。
如何应对:识别工具与拐杖的边界
这不是要放弃 AI 写作工具。问题不是"用不用",而是"怎么用,用在哪里"。
几点判断:
AI 适合:信息整理、初稿速写、结构参考、语法检查(但不点"接受所有修改") AI 危险:论证方向、因果推断、需要个人独特视角的表达、任何涉及立场和价值观的写作
最根本的建议只有一条:在 AI 辅助之后,你的初稿与终稿之间,必须有一段完全由人类主导的批判性审视。不是 AI 替你思考,而是你决定保留什么、拒绝什么。
工具越强,这个判断越重要。