当代码变成 Token:开发者的技能曲线正在塌方
不是"AI 会不会取代开发者"——是"开发者需要重新回答什么问题"。
0. 两个并排的场景
2026 年 6 月 4 日,知乎一个提问冲上 104 万热度:
「Codex 可以 100% 正式接管所有编程工作了吗?」
同一天下午,一家互联网公司内部的"代码量排行榜"被截图发到脉脉。截图里,第一名当月提交了 4.2 万行代码,工号后四位被打码。评论区最高赞的一句话是:“他一个人能顶 8 个组,其他人还有存在必要吗?”
两件事,隔着不到 12 小时。前者在问"AI 是不是已经够了",后者在用"代码行"丈量人的价值。
这两个场景摆在一起,比单独看任何一个都更接近真相。
1. 加速的环节,和没动的环节
要谈"AI 时代开发者的技能",先得把一件常被忽略的事说清楚:AI 加速的,只是开发流程中很小的一段。
InfoQ 2026 年 4 月的调研里,复旦大学 CodeWisdom 团队首席技术专家茹炳晟给了一个数字:
真正写代码的时间,通常只占整个研发流程的 20%~30%。剩下的大头,都在沟通、对齐、评审、测试和各种临时事务上。
AI 提升的,主要是这 20%~30% 的环节。
具体数字,可以看 InfoQ 同期披露的几家企业数据 [1]:
- 腾讯:员工编码时间缩短 40%,但整体研发效率只提升 20%——AI 帮开发者省下来的时间,有一半被"老板的预期抬高"吃掉了。
- 快手:L1 阶段(代码补全)15%~25%,L2/L3 标杆团队交付周期下降 58%。
- 昆仑万维:架构师 / Team Leader 提升 3~5 倍,研发整体速度 50%+。
- Meta 内部 Claudeonomics 排行榜:8.5 万员工比谁烧的 token 多,第一名一个月 2810 亿 token,折合数百万美元。
注意"整体"那一行——腾讯的整体效率提升只有编码提速的一半。
快手研发效能负责人沈浪解释得更直白:
大公司里,从个人提效到组织提效之间常常隔着两道鸿沟。第一个是从个人到团队——你个人写代码是快了,但代码评审还得排队,测试环境也得等。第二个是从团队到组织——只要需求、测试、发布这些流程还是瓶颈,整个组织的交付周期照样快不起来。
这就像一辆手动挡的车换了自动挡。起步、超车、堵车跟车这几项确实变轻松了;但油离配合、坡道起步、轮胎打滑的判断——这些"驾校里学完就再也没练过"的东西,会慢慢钝掉。等到某天需要从自动挡切回手动挡(比如车坏了,比如 AI 服务挂了),才发现脚底下的肌肉记忆,已经没了。
这就是"AI 辅助的隐性代价"在个人层面的最直接写照:加速的环节在变多,但被加速的环节在开发者经验谱系里,往往不是核心的那一段。
2. arxiv 一项新研究:重度 AI 用户,表现反而更弱
如果说上面是工程经验的观察,那 2026 年 5 月 24 日 arxiv 上线的一项对照实验,把这件事推进到了实证层面 [2]。
研究团队把受试者按 AI 使用强度分成三组(重度 / 轻度 / 不使用),让他们完成一系列逻辑推理任务。结果:
重度 AI 用户在任务中表现显著弱于轻度用户和未使用 AI 的对照组。 AI 信息量(Informativeness)是影响学习效果的关键中介变量。 低信息量 AI 既不能提升即时表现,也不能保留移除后的技能。 高信息量 AI 可在短期提升表现,但长期学习效果因人而异。
这条结论有几个耐人寻味的细节:
- “重度 < 轻度 < 不使用” 是一个单调的关系。不是说"重度跟轻度差不多",而是使用强度越高,表现越差。
- AI 的"信息量"是关键中介。不是"用不用 AI"决定结果,是"AI 给的信息量是多是少"决定结果。低信息量 AI(就是那种只会"看起来很厉害"地糊弄的)等于双输。
- 研究建议"适度监管 AI 访问"——这个措辞在 AI 普及叙事里相当罕见。
这个研究的具体任务是"逻辑推理",不是写代码。但"AI 替代思考 → 学习者失去练习机会"这条机制,在编程里可能更明显——因为代码是一种反馈环极短的活动,写一行跑一行,错了立刻知道;而逻辑推理题,反馈环更长、对错更模糊,对 AI 的依赖更难被发现。
更值得注意的是**“建议适度监管 AI 访问"这句话的份量**。在 2023-2024 年的主流 AI 论文里,类似表述几乎不会出现——那时候的默认立场是"AI 工具的访问应当普及”。这项研究是一个研究语气的转向信号:学术界开始从"AI 普惠"转向"AI 适度使用"。
把它和第一节的工程数据放在一起看,画面就清楚了:
- 在"写代码这一段",AI 把开发者的反馈环从"分钟级"压缩到"秒级",主观体验极快。
- 在"理解 / 调试 / 调试失败"这一段,AI 也替了,但没有真正教过开发者怎么定位。
- 在"沟通 / 对齐 / 评审"这一段,AI 几乎没动。
- arxiv 的研究暗示:在"技能沉淀"这一段,重度 AI 用户事实上处于劣势。
3. 行业生态:被加速的差异,没有被抹平的差距
把视角从个人拉到行业,会看到一个更不对称的图景。
第一个不对称:初级岗位和新人成长路径。
InfoQ 4 月那篇报道里讲到一个细节——Meta 内部有人搭了个叫 Claudeonomics 的排行榜,8.5 万名员工比谁烧的 token 多,前三名能拿徽章、头衔 [1]。
类似的故事在快手、腾讯、昆仑万维都能看到。但一个绕不过去的问题是:这些"刷 token 排名靠前"的人,是不是新人?
答案在所有报告里都指向同一个方向——不是。Token 烧得多、能用 AI 撬动 3-5 倍效率的人,往往是那些"对需求理解深、任务拆解能力强、能识别 AI 幻觉"的资深工程师。
InfoQ 报道里有一个非常精确的表述:
资深工程师对需求理解深、任务拆解能力强、能识别 AI 幻觉,AI 就成了判断力的放大器;初级工程师执行速度快了,但判断失误也跟着快了。
这放大了不同层级工程师之间的差距。
第二个不对称:组织之间的"透镜效应"。
沈浪打过一个比方:
AI 像一面透镜,基础扎实的组织,长板被放得更长;本来就有问题的组织,短板也暴露得更彻底。
这和 2026 年 6 月 5 日 B 站一条 57 万热度的视频"AI 脸泛滥,建模师没活了"是同一种结构——AI 工具普及后,头部效率被放大,初级岗位被压缩,中间的"练手区"消失。建模师如此,初级程序员亦然。
第三个不对称:尺子没有跟上工具。
InfoQ 4 月报道里复述了一组数据:昆仑万维每月消耗 1 万亿到 1.2 万亿 token,分摊到 1500 名研发员工头上,每人每月 700 元。公司方汉算过一笔账:“这笔投入太值了,每月百万元差不多相当于 20 个员工的成本。” [1]
但**“省出来的人效"在很多公司变成了"该裁的人”**。InfoQ 报道里一个被采访的程序员说:
“我们内部的考核,已经慢慢往 AI 那边偏了。最直接的就是代码量,我们有一个排行榜,谁发了多少行代码,一刷就能看到。组里有个别人几乎全靠 AI 在写,代码量和 PR 数量一下子拉得特别高,慢慢大家就都被拿去跟这种人对标。”
把"代码行 + Token 消耗"作为生产力指标,是这一轮 AI 普及中最显眼、也最危险的倒退。
第四个不对称:金融业的"反例"。
有意思的是,InfoQ 同期报道了一家做银行核心系统的公司——神州信息。他们用 AI 把测试用例编写从"5 人团队耗时 1 个月"压缩到"1 人审核 AI 生成结果",文档补全从"10 人月"压到"3-5 人月"。但他们没有裁人。原因在报道里写得很直白:
复杂账务、事务一致性、7×24 小时银行机制支撑这类代码,靠的是人长期积累下来的经验。AI 在简单查询和增删改查上当然快,但一碰到这些复杂场景,提效自然就放缓了——天花板就在那里。
所以银行核心系统仍然需要几百人维护。AI 加速的是可验证的活(CRUD、单测、文档生成),不能加速的是必须人拍板的活(复杂业务逻辑、架构决策、安全审查)。这两类活的边界,正好是神州信息公司负责人说的"天花板"。
到这里四个不对称都摆出来了。但要承认另一面——AI 也在创造新岗位。Prompt Engineer、AI Trainer、AI Product Manager、AI Eval Harness 设计师这些新职业,都是 2024 年之前不存在的。
所以"非对称挤压"的中立表述是:初级岗位萎缩、中间层变薄、高级岗位被放大、新岗位被创造——这是同时发生的四件事。把任何一件单独抽出来说"AI 让人退化"或"AI 让人进化",都不准确。
4. 重新定义"技能":不是更快,是更准
如果上一节说的是"发生了什么",这一节要问的是"在新的图景里,‘有技能’意味着什么"。
Karpathy 2026 年 5 月加入 Anthropic 后第一次公开讲,给出了一个有用的框架——他把软件开发分成三代范式 [3]:
- Software 1.0:写代码告诉计算机"怎么做"
- Software 2.0:训练神经网络(参数即程序)
- Software 3.0:用自然语言告诉 LLM “做什么”
Software 3.0 不取代 1.0,但编程的稀缺性坐标发生了迁移。稀缺的不再是"把代码写出来",而是"知道要写什么、写得对不对、写出来适不适合当前场景"。
Karpathy 在这次访谈里有一句被广泛引用的话:
“You can outsource thinking, but you can’t outsource understanding.”
结合 InfoQ 4 月报道里"资深工程师的判断力被放大"的观察,新技能图谱的轮廓已经可以画出来:
第一项:判断——知道 AI 给的方案对不对、好不好、适不适合当前场景。这是 Karpathy 说的"可验证性"——AI 擅长可验证任务(CRUD、单测、文档生成),不擅长需要人类拍板的任务(复杂业务逻辑、架构决策、安全审查)。
第二项:品味——在多个 AI 给的方案中,挑出"对味"的那一个。AI 输出 10 个方案给你看,没有"对错",只有"哪个更对"。这种能力,本质上来自长期写过很多代码、看过很多代码、知道"好代码长什么样"的肌肉记忆。
第三项:抽象——把问题从"代码层"提升到"约束层"。这对应 2026 年技术圈另一个热词:Harness Engineering。Karpathy 的 Menu Gen 例子讲的就是这件事——他花了大量时间开发的菜单识别 APP,在 Software 3.0 范式下"整个 APP 不应该存在"——你只需要把菜单照片丢给 Gemini,说一句"用图片覆盖菜单",它直接返回带菜品图片的菜单。所有中间层的 APP 代码,全部多余。
“判断 + 品味 + 抽象"这三项能力,要求大量的底层经验——这不是"AI 让技能更民主"的过程,而是"AI 让技能差距更大"的过程。
但要诚实地承认另一面:这三项能力跟"AI 加速的环节"在很大程度上是反的。AI 加速的是"写”,而"判断 / 品味 / 抽象"是"想"。InfoQ 4 月报道里有一句非常冷静的结语:
一个工程师可以花 5 个小时认真看复杂架构、深入思考问题,而不会像 AI 那样不断累积惊人的计算费用。在企业预算里,这种"慢速的人脑",反而可能成为终极的固定成本资产。
注意"反而"两个字。这是说——在 Token 经济里,“慢"可能重新变得贵。
这不是在给"AI 时代要保持慢"唱赞歌。也不是在反对 AI 加速。
这是一个观察。
5. 结尾:不是"会不会被取代”,是"该重新回答什么问题"
arxiv 那项研究建议"适度监管 AI 访问"——这话在学术论文里出现,是有分量的。但它没告诉你怎么监管、监管到什么程度。
Karpathy 没说"AI 编程好不好",他说"Software 3.0 来了"——这是范式转移,不是对错判断。
InfoQ 4 月报道里也没说"AI 让人退化了"或"AI 让人进步了",它说"个人提效 ≠ 组织提效 ≠ 全局提效"——这是结构分析。
把三件事放在一起看,“AI 辅助的隐性代价"这个题目本身,可能问错了。
真正值得问的,是三个更具体的问题:
1. 你团队里,新人还有 5 年时间慢慢成长吗?
2024 年以前的工程师成长路径是:写三年 CRUD → 开始看架构 → 五年后能做核心模块 → 十年后做系统设计。这条路径在 AI 时代正在被"代码行排名"和"Token 排名"压缩。如果新人一入职就被要求"产出 3.7 万行代码/月”,那一代 5 年后会顶上来的人,从哪里来?
2. 你用 AI 三个月后,关掉 AI 还能不能写出一样质量的代码?
不是"关掉 AI 之后你还能不能工作"——这个问题的答案显然"能"。问的是"三个月后关掉 AI,你自己写的代码,质量上能不能跟三个月前不靠 AI 时持平?“如果不能,那不是"你和 AI 协同”,是"AI 在替你工作"。
3. 你公司用什么尺子衡量生产力?
代码行、Token 消耗量、PR 数量、提交频率——这些 2024 年以前的常识指标,在 AI 时代全部失效。如果公司还在用这些尺子,那不是"AI 让人退化",是"AI 让考核扭曲"——而且这个扭曲的代价比 AI 本身大得多。
这三个问题,AI 时代以前的答案是清楚的,AI 时代以后,每个团队都要重新回答一遍。
至于答案——本文不给。
参考来源
[1] InfoQ,《AI 提效了,老板觉得自己又行了:可代码行数和 Token 排名,真该拿来裁人吗?》,2026-04-17。原始链接:https://mp.weixin.qq.com/s/GoMDepJQoM7XoVS7rnu8GQ
[2] arxiv.org,《The Impact of AI Usage and Informativeness on Skill Development in Logical Reasoning》,2026-05-24。原始链接:https://arxiv.org/abs/2605.21695
[3] 微信公众号"萤火 AI 百宝箱",《Karpathy 加入 Anthropic 后首讲:Vibe Coding 已死,Software 3.0 来了》,2026-05-25。原始链接:https://mp.weixin.qq.com/s/Ab_dbrinxK8wNSWvYRCxFw
[4] 知乎热榜,《Codex 可以 100% 正式接管所有编程工作了吗?》,2026-06-04。
[5] B 站热榜,《AI 脸泛滥成灾,建模师没活了》,2026-06-05。