我用 OpenClaw 的真实感受
OpenClaw 是支持接入即时通讯软件的 AI Agent。和普通对话机器人的区别是:它不只是回答问题,它能读文件、写文件、执行脚本、配置定时任务、推送消息——基本上我平时在终端里做的那些事,它都能替我跑。
我用了一个多月。搭了几个自动化流程,踩了很多坑。这篇文章不说功能介绍,不说行业对比,就说一件事:用下来我真正相信了什么东西,以及我原来的哪些想法被改变了。
一、最直接的改变:把"懒得做"变成"不用做"
举个热门的选股流程的例子:每天收盘后,把东方财富的板块资金排名、涨停股池、财联社资讯综合看一遍,判断明天方向。靠手动做,30 分钟起步,做完这一套人也累了,第二天还得重来。
这个最好当然是靠脚本定时做,但如果自己来写工作量也不小。现在这件事从想法到跑起来,大概就用了三四轮对话。但这不是重点。重点是:这件事我以前不是不知道该做,是知道该做但懒得做。现在我知道它在做,不用管了。
二、想法捕捉:剖析灵感,挖掘价值
以前脑子里冒出来一个想法,要么记在脑子里占内存,要么丢进某个备忘录,过两周再翻到完全不知道当时在想什么。
现在我说"记录想法",Agent 会追问两三个问题,把这个想法厘清:是研究方向还是可执行任务?如果是可执行任务,直接写进待办清单。
效果最好的不是"记下来"这个动作,是"被追问"这个过程。很多想法说起来兴奋,追问两句就发现想不清楚——这反而是最有价值的时刻,在脑子里空转的时候从来看不到。
三、一件事真正改变了我的认知:memory 系统不是 RAG
这是我这篇文章最想说的部分。
用了几个月之后,memory 目录里积攒了很多 session 快照和操作记录。我一开始觉得这是我的"知识库",但问题是:需要某个知识的时候,我根本想不起来去翻那些文件。
这让我重新思考 memory 系统的本质。
我以前以为它是 RAG——先有文档,Agent 去检索。这个框架对 OpenClaw 不完全适用。Session 快照是过程记录,不是知识文档。我真正需要的不是"搜到这个知识",而是"这个知识下次怎么被用到"。
OpenClaw 里的 memory,核心价值不是检索,而是知识工程的沉淀:
- 一个坑踩过去了,原因是什么、怎么解的——这是经验,不是文档。写进 session 快照,下次翻不到这个地方。
- 一个 Skill 跑顺了,踩过哪些坑、要注意什么——这是操作知识,写进 SKILL.md 才会被用到。
- 某个决策做了,为什么这样选而不是那样选——这是决策记录,不是过程记录。
这些知识不是"被检索"的,是在解决问题过程中被生产出来,再被组织起来的。RAG 的评估指标是召回率,知识工程的评估指标是"重复的问题是否不再出现"。
想清楚这一点之后,我对自己的 memory 整理方式做了一次重构:不再追求"多",追求"用的时候能自动看到"。每次解决一个问题,顺手在对应文档里写一条"经验注记",哪怕一句话也比一堆 session 快照有价值。
四、自主判断有个阈值,我花了点时间才摸到
用久了之后会想往 Agent 身上堆更多的事,恨不得一句话说清楚,它全部搞定。
试了几个月,我的结论是:动作可以最大程度地放手,但脑子不能松。
Agent 能执行,但一件事值不值得做、做到什么程度、产出好不好——这些判断它给不了。它会自信地给你一个结果,甚至于会通过你话语中的倾向迎合你,这些都不是真正的价值判断。
举一个具体的:Agent 帮我写文章,可以写到结构完整、语句通顺。但文章有没有洞见、观点有没有新意——我每次还是得自己过一遍。没有这个环节,推出去的东西就是平庸的,只是看起来完整。
定时任务也一样。设了自动跑,但不是设完就结束了。每隔几天我会看一下输出质量,确认它还在正确的方向上。不是监控它,是确认我最初设定的目标没有偏移。Agent 没有"意义感",只有"目标达成感"——这是两件完全不同的事。
五、知识固化是系统问题,不是记性问题
我以前觉得"说过的问题不记得"是我的记性差。现在我觉得是固化环节缺失。
具体来说,有几种常见的错误固化:
记录了,但没有放在会用的时候能看到的地方。 比如在 session 快照里写了某个坑的解法,但下次遇到同类问题,根本不会想起来去翻那个文件。
记录了,但没有提炼成可执行的操作指引。 比如聊天里说了"这里要加 gzip 请求头",但没有写进 SKILL.md 或代码注释,下次遇到同样报错还是从头排查。
记录了,但没有更新到工作流的核心位置。 改了某些逻辑,但没及时更新,结果文档和实际运行的是两套。
解决方式就一句话:知识要放在用的时候会自己看到的地方,操作指引要落到"遇到 X 情况,检查 Y"的层面,而不是只写"这里有个坑要注意"。更新要及时,不要拖。
六、Skill 触发不稳定,但有解法
OpenClaw 的 Skill 触发依赖自然语言描述匹配。有时候我说的话和 skill 描述不完全吻合,Agent 靠"心情"决定是否触发。
我的解法:遇到该触发没触发的时候,直接说 skill 名称激活,不用猜它这次想不想触发。这是一个很小但很实用的技巧。
七、我踩过的几个觉得值得说的坑
关于提效的账
我用 Agent 帮我写代码、调脚本,表面上省了时间,但有时候调试 Agent 犯的错,比我自己写还慢。有些操作交给它比人慢,不是因为它不行,是因为这件事本身就不适合 Agent 干,只是我一开始没想清楚。提效这件事,账不如想象中好算。
多智能体目前没有证明自己
我试过让多个 Agent 分工协作处理一个复杂任务。结论是:多智能体分工无法拔高大模型能力上限。设置角色和互相监督有利于反思和控制风险,但更大的 token 消耗带来的产出是否值得,没有可靠的评估方法。目前还是单 Agent 为主,多 Agent 只在明确需要"角色扮演+互相审查"的场景下才值得试。
配置 Agent 人格不是玄学,是必要的
OpenClaw 接入的是我个人的整个数字空间。定义 Agent 的说话风格、约定它能做什么不能做什么、哪些操作需要我确认再执行——这些花了我大概半天时间想清楚。想清楚之后,它的行为变得可预期,出问题的次数少了很多。不是配置了才有用,是不配置就一定会出问题。
结尾
OpenClaw 对我的价值,不是一个更强的 ChatGPT,而是一个嵌在我日常信息流里的执行层。
它擅长的事: 把我"懒得做但知道该做"的事自动化,把我脑子里一闪而过的东西捕捉住不丢掉,把我已经想清楚的流程固化下来不用重复跑。
它不擅长的事: 替我做价值判断,替我评估这件事值不值得做,替我监控跑起来的东西有没有偏移目标。
用了一个多月,我学会了一件事:把动作最大限度地交给它,把脑子留给真正需要想的事情。 这件事说起来简单,做起来其实花了不少时间才找到边界。