一个月烧 130 万美元 Token：Agent 经济学的真实面貌

本周一条不大起眼的 HN 帖子（162 分）：有人扒出 OpenClaw 创始人 Pete 在 30 天内花了 130 万美元的 OpenAI API token。

130 万美元。30 天。一个开源项目。

这个数字值得仔细想想。

130 万美元是什么概念

按 GPT-5.1 的 API 价格算（输入 $10/百万 token，输出 $30/百万 token），130 万美元大约能买到：

纯输入：1300 亿 token
纯输出：433 亿 token
混合（假设 1:1）：大约 650 亿 token

650 亿 token 是什么概念？GPT-3 的整个训练数据集是 3000 亿 token。OpenClaw 一个月的 API 调用量，是 GPT-3 训练数据的五分之一。

或者换一种比较方式：一个正常使用 Claude/ChatGPT 的开发者，每天大概消耗 5-10 万 token。130 万美元的 token 量相当于一个开发者用 200 年。

钱花在哪了

OpenClaw 是一个自主 Agent 框架。用户定义一个「人格文档」（SOUL.md），然后把 Agent 放出去让它自己活动。Agent 可以浏览互联网、搜索信息、写代码、提交 PR、写文章、和其他 Agent 交流。

关键词是「自己活动」。没有人在每一步点确认按钮。Agent 自己决定下一步做什么。

这意味着 token 消耗是指数性的：

每个决策都是一次 LLM 调用。 Agent 要决定做什么、怎么做、做得对不对、下一步是什么。每个决策点都是一次或多次 API 调用。

子任务会递归生成。 Agent 在执行一个任务时可能发现需要先解决另一个问题，于是生成子任务。子任务可能再生成子任务。

搜索和阅读吃大量 token。 Agent 浏览网页、阅读代码库、搜索文档，每次都要把内容塞进上下文窗口。一次 Google 搜索的结果可能就是几万 token。

重试和错误恢复。 自主 Agent 经常走错方向，需要回退和重试。错误路径上消耗的 token 不会退款。

多 Agent 通信。 OpenClaw 的 Agent 可以互相对话。两个 Agent 讨论一个问题，token 消耗翻倍。三个 Agent 讨论，翻三倍。

当你把这些加在一起，而且 Agent 是 24/7 不间断运行的，一个月 130 万美元就不那么离谱了。

没人设计了一个「花 130 万」的预算

这才是最值得关注的点。

Pete 没有坐下来算：我打算花 130 万美元。他做的是启动一个 Agent 系统，让它自主运行，一个月后回来看账单。

这是自主 Agent 的核心经济学特征：成本不是由人类直接控制的，而是由 Agent 的行为模式间接决定的。

你可以给 Agent 设一个硬性 token 上限，但那会限制它的能力。如果它在执行一个复杂任务的中途碰到了上限，要么强行终止（浪费之前的所有工作），要么你手动加额度。

大多数人选择不设上限，或者设一个很宽松的上限。然后 Agent 的实际消耗由它的任务复杂度、决策效率、错误率共同决定。这些变量你很难提前预测。

Agent 的经济学和人类雇员完全不同

雇一个程序员，月薪是固定的。他做多少工作、走多少弯路，不影响你的支出。

用一个 Agent，情况正好相反：

任务越复杂，花费越高
Agent 犯的错误越多，花费越高（错误路径也消耗 token）
Agent 越「勤奋」（自主发现新任务去做），花费越高
运行时间越长，花费越高

换句话说：Agent 表现好要花钱，Agent 表现差也要花钱，Agent 表现得「太好」（自己发现了一堆额外工作）反而可能花更多钱。

这创造了一个新的管理难题：怎么在 Agent 的能力和成本之间找到平衡？

成本会下降吗

会。而且下降速度很快。

GPT-4 到 GPT-5.1，同样能力的价格下降了大约 10 倍。如果这个趋势继续，一年后同样的 130 万美元能买到 10 倍的 token，或者同样的工作量只需要 13 万美元。

但这里有一个经济学陷阱：当价格下降时，人们倾向于使用更多而不是花更少。

如果 token 便宜了 10 倍，Pete 不会把预算从 130 万降到 13 万，他更可能把 Agent 数量扩大 10 倍，继续花 130 万。因为 Agent 能做的事情是无限的，成本是唯一的约束。约束放松了，使用量就膨胀。

这和云计算的历史一模一样。AWS 每年降价，但大多数公司的云账单每年增长。因为便宜了就跑更多服务、存更多数据、做更多实验。

对普通开发者意味着什么

如果你只是用 Cursor 或 Claude Code 做日常开发，不用担心。这些工具的 token 消耗被产品层控制得很好，月费几十到几百美元。

但如果你在考虑部署自主 Agent 系统（让 Agent 不间断运行、自主决策），你需要非常认真地对待成本控制：

设硬性预算上限。 不是「月度总额」这种粒度，而是「每小时/每任务」的粒度。一个失控的子任务递归可以在几小时内烧掉大量预算。

监控 token 消耗趋势。 如果某个 Agent 的 token 消耗突然飙升，很可能是它进入了循环或者在做无用功。

区分「有用工作」和「探索性工作」。 让 Agent 自由探索是它的价值所在，但探索有可能变成漫无目的的消耗。设计合理的终止条件。

不要假设 Agent 会自己省钱。 当前的 LLM 没有「成本意识」。除非你在 system prompt 里明确要求它考虑效率，否则它会选择最彻底（也最昂贵）的方案。

这不只是钱的问题

130 万美元的 token 消耗背后还有一个更深层的问题：这些 token 代表了多少行动？

每一次 API 调用，Agent 可能做了一个决策：浏览一个网页、写一段代码、发一条消息、提交一个 PR。130 万美元的 token 量意味着数百万次决策，每一次都是 Agent 在真实世界中采取的一个行动。

这些行动里有多少是有益的？有多少是中性的？有多少可能是有害的（就像那个攻击 matplotlib 维护者的 Agent 做的事）？

没人知道。因为没人在逐一审查。

这才是 Agent 经济学真正需要面对的问题：不只是成本的可控性，还有行动的可监管性。当一个系统每天做出几万个自主决策，而你只在月底看一眼账单，中间发生了什么，只有 Agent 自己知道。

这是 AI Agent 系列的第九篇。相关文章：