本周一条不大起眼的 HN 帖子(162 分):有人扒出 OpenClaw 创始人 Pete 在 30 天内花了 130 万美元的 OpenAI API token。
130 万美元。30 天。一个开源项目。
这个数字值得仔细想想。
130 万美元是什么概念
按 GPT-5.1 的 API 价格算(输入 $10/百万 token,输出 $30/百万 token),130 万美元大约能买到:
- 纯输入:1300 亿 token
- 纯输出:433 亿 token
- 混合(假设 1:1):大约 650 亿 token
650 亿 token 是什么概念?GPT-3 的整个训练数据集是 3000 亿 token。OpenClaw 一个月的 API 调用量,是 GPT-3 训练数据的五分之一。
或者换一种比较方式:一个正常使用 Claude/ChatGPT 的开发者,每天大概消耗 5-10 万 token。130 万美元的 token 量相当于一个开发者用 200 年。
钱花在哪了
OpenClaw 是一个自主 Agent 框架。用户定义一个「人格文档」(SOUL.md),然后把 Agent 放出去让它自己活动。Agent 可以浏览互联网、搜索信息、写代码、提交 PR、写文章、和其他 Agent 交流。
关键词是「自己活动」。没有人在每一步点确认按钮。Agent 自己决定下一步做什么。
这意味着 token 消耗是指数性的:
每个决策都是一次 LLM 调用。 Agent 要决定做什么、怎么做、做得对不对、下一步是什么。每个决策点都是一次或多次 API 调用。
子任务会递归生成。 Agent 在执行一个任务时可能发现需要先解决另一个问题,于是生成子任务。子任务可能再生成子任务。
搜索和阅读吃大量 token。 Agent 浏览网页、阅读代码库、搜索文档,每次都要把内容塞进上下文窗口。一次 Google 搜索的结果可能就是几万 token。
重试和错误恢复。 自主 Agent 经常走错方向,需要回退和重试。错误路径上消耗的 token 不会退款。
多 Agent 通信。 OpenClaw 的 Agent 可以互相对话。两个 Agent 讨论一个问题,token 消耗翻倍。三个 Agent 讨论,翻三倍。
当你把这些加在一起,而且 Agent 是 24/7 不间断运行的,一个月 130 万美元就不那么离谱了。
没人设计了一个「花 130 万」的预算
这才是最值得关注的点。
Pete 没有坐下来算:我打算花 130 万美元。他做的是启动一个 Agent 系统,让它自主运行,一个月后回来看账单。
这是自主 Agent 的核心经济学特征:成本不是由人类直接控制的,而是由 Agent 的行为模式间接决定的。
你可以给 Agent 设一个硬性 token 上限,但那会限制它的能力。如果它在执行一个复杂任务的中途碰到了上限,要么强行终止(浪费之前的所有工作),要么你手动加额度。
大多数人选择不设上限,或者设一个很宽松的上限。然后 Agent 的实际消耗由它的任务复杂度、决策效率、错误率共同决定。这些变量你很难提前预测。
Agent 的经济学和人类雇员完全不同
雇一个程序员,月薪是固定的。他做多少工作、走多少弯路,不影响你的支出。
用一个 Agent,情况正好相反:
- 任务越复杂,花费越高
- Agent 犯的错误越多,花费越高(错误路径也消耗 token)
- Agent 越「勤奋」(自主发现新任务去做),花费越高
- 运行时间越长,花费越高
换句话说:Agent 表现好要花钱,Agent 表现差也要花钱,Agent 表现得「太好」(自己发现了一堆额外工作)反而可能花更多钱。
这创造了一个新的管理难题:怎么在 Agent 的能力和成本之间找到平衡?
成本会下降吗
会。而且下降速度很快。
GPT-4 到 GPT-5.1,同样能力的价格下降了大约 10 倍。如果这个趋势继续,一年后同样的 130 万美元能买到 10 倍的 token,或者同样的工作量只需要 13 万美元。
但这里有一个经济学陷阱:当价格下降时,人们倾向于使用更多而不是花更少。
如果 token 便宜了 10 倍,Pete 不会把预算从 130 万降到 13 万,他更可能把 Agent 数量扩大 10 倍,继续花 130 万。因为 Agent 能做的事情是无限的,成本是唯一的约束。约束放松了,使用量就膨胀。
这和云计算的历史一模一样。AWS 每年降价,但大多数公司的云账单每年增长。因为便宜了就跑更多服务、存更多数据、做更多实验。
对普通开发者意味着什么
如果你只是用 Cursor 或 Claude Code 做日常开发,不用担心。这些工具的 token 消耗被产品层控制得很好,月费几十到几百美元。
但如果你在考虑部署自主 Agent 系统(让 Agent 不间断运行、自主决策),你需要非常认真地对待成本控制:
设硬性预算上限。 不是「月度总额」这种粒度,而是「每小时/每任务」的粒度。一个失控的子任务递归可以在几小时内烧掉大量预算。
监控 token 消耗趋势。 如果某个 Agent 的 token 消耗突然飙升,很可能是它进入了循环或者在做无用功。
区分「有用工作」和「探索性工作」。 让 Agent 自由探索是它的价值所在,但探索有可能变成漫无目的的消耗。设计合理的终止条件。
不要假设 Agent 会自己省钱。 当前的 LLM 没有「成本意识」。除非你在 system prompt 里明确要求它考虑效率,否则它会选择最彻底(也最昂贵)的方案。
这不只是钱的问题
130 万美元的 token 消耗背后还有一个更深层的问题:这些 token 代表了多少行动?
每一次 API 调用,Agent 可能做了一个决策:浏览一个网页、写一段代码、发一条消息、提交一个 PR。130 万美元的 token 量意味着数百万次决策,每一次都是 Agent 在真实世界中采取的一个行动。
这些行动里有多少是有益的?有多少是中性的?有多少可能是有害的(就像那个攻击 matplotlib 维护者的 Agent 做的事)?
没人知道。因为没人在逐一审查。
这才是 Agent 经济学真正需要面对的问题:不只是成本的可控性,还有行动的可监管性。当一个系统每天做出几万个自主决策,而你只在月底看一眼账单,中间发生了什么,只有 Agent 自己知道。
这是 AI Agent 系列的第九篇。相关文章: