2025 年 11 月：编程 Agent 质变的那个月

Simon Willison 上周在 PyCon US 2026 做了一个 5 分钟闪电演讲，标题是「过去六个月 LLM 领域发生了什么」。演讲结束后他把带注释的幻灯片发到了博客上，在 Hacker News 拿了 778 分。

这篇演讲里最有价值的不是新闻罗列，而是一个判断：2025 年 11 月是编程 Agent 的质变拐点。

我回顾了自己的使用体验，觉得这个判断是对的。

拐点之前：能用但费劲

2025 年上半年到 10 月，编程 Agent 的体验可以概括为：能帮你干活，但你得花大量时间检查和修正它的输出。

典型的工作流是这样的：你给 Agent 一个任务，它写出一版代码，你检查发现两三个问题，指出来让它改，它改了但又引入一个新问题，你再指出来，它再改。折腾三四轮之后，代码勉强能用了。

总时间可能比你自己写节省了 30%，但心智负担不见得少。因为你需要一直保持注意力，盯着它的每一步输出。Willison 形容当时的状态是「偶尔好用」（often-work）。

11 月发生了什么

Willison 说了两件事：

第一，模型王座在一个月内换了五次手。

9 月底 Claude Sonnet 4.5 发布，被公认为最强。11 月，先是 GPT-5.1 超过了它，然后 Gemini 3 又超过了 GPT-5.1，然后 GPT-5.1 Codex Max 又反超 Gemini 3，最后 Claude Opus 4.5 在月底重新登顶。

五个模型，一个月，来回超车。这种密度的竞争在之前没出现过。三家公司显然都在 2025 年下半年把大量资源砸到了编程能力的 RL 训练上，11 月是成果集中释放的窗口。

第二，编程 Agent 从「偶尔好用」跨到了「每天能用」。

Willison 用的词是 mostly-work。区别在哪？在于你不再需要时刻盯着它。你可以给它一个任务，去泡杯咖啡回来，它大概率做完了而且是对的。

这个跨越不是某一个模型的功劳，而是三家公司同时把代码 RL 推过了某个质量阈值。OpenAI 和 Anthropic 花了 2025 年大半年跑 RLVR（Reinforcement Learning from Verifiable Rewards），用自动化测试做奖励信号来训练模型写代码。11 月，这个投入的回报开始显现。

拐点之后：Vibe Coding 狂潮

12 月到 1 月是圣诞假期。全世界一大批开发者利用假期试用这些新 Agent，然后集体进入了 Willison 所说的「LLM 精神错乱」状态。

什么意思？就是发现 Agent 太好用了，开始疯狂启动各种野心勃勃的项目，完全不考虑这些项目到底有没有人需要。

Willison 自己就是受害者之一。他 vibe code 了一个用 Python 实现的 JavaScript 解释器（叫 micro-javascript），能在浏览器里通过 Pyodide + WebAssembly 跑 Python 跑 JavaScript。技术上很酷，实际上完全没人需要。他后来说自己「悄悄退役了好几个假期项目」。

Karpathy 同期提出了 Vibe Coding 这个概念：不看代码，把一切交给 Agent，看 vibes 行事。这个概念迅速传播，变成了一种开发方式的代名词。

但几个月后，Karpathy 自己修正了这个概念。他说真正有经验的人做的不是 Vibe Coding，而是 Agentic Engineering：你设计约束和验证条件，Agent 在约束内自主工作，你检查最终结果。区别在于有没有工程纪律。

OpenClaw：从第一个 commit 到席卷全球，90 天

Willison 演讲里提到了另一个 11 月拐点的副产品：OpenClaw。

2025 年 11 月底，一个叫 Pete 的人在 GitHub 上创建了一个 repo，当时叫 Warelay。12 月和 1 月改了好几次名，最终定名 OpenClaw。到 2026 年 2 月，它已经是全世界最火的 AI 项目之一。

OpenClaw 是一个「个人 AI 助手」框架，让你可以在自己的电脑上跑一个持续运行的 Agent（叫 Claw）。这东西火到什么程度？硅谷的 Mac Mini 一度卖断货，因为人们买来当专用 Claw 服务器。

后来出现了 NanoClaw、ZeroClaw 等各种变体，「Claw」变成了一个通用品类名。

但 OpenClaw 也带来了问题。上次我写的那篇 Agent 失控文章里的 MJ Rathbun，就是跑在 OpenClaw 上的。当 Agent 够强、又没人盯着的时候，事情就会往意想不到的方向走。而 Agent 变强，恰恰就是从 11 月开始的。

OpenClaw 创始人一个月烧了 130 万美元

顺便提一个本周的新闻：有人扒出 OpenClaw 创始人在 30 天内花了 130 万美元的 OpenAI API token。这个数字直观地说明了这些「自主运行」的 Agent 系统的规模。

一个人（或一个小团队），30 天，130 万美元。这不是大公司的预算，是一个开源项目的 API 消耗。Agent 系统一旦跑起来，token 用量是指数级的，因为 Agent 会自己给自己创建子任务、做搜索、写代码、验证结果，每一步都在消耗 token。

为什么拐点是 11 月而不是更早或更晚

我觉得有几个因素在 11 月汇聚：

RL 训练的成熟。 用代码测试做可验证奖励来训练模型，这个范式从 2024 年就开始了，但需要时间积累训练数据和调优流程。到 2025 年下半年，三家公司的 RL pipeline 都跑了大半年，产出开始稳定。

长上下文的突破。 Agent 做复杂任务需要很长的上下文窗口。2025 年中到下半年，几家模型的有效上下文长度都有显著提升，这让 Agent 能处理更复杂的项目。

工具使用的标准化。 函数调用、MCP 协议等标准让 Agent 和外部工具的对接变得更可靠。模型不再需要猜测工具的调用格式，错误率大幅下降。

竞争压力。 三家公司同时发力，互相追赶，形成了正反馈循环。一家突破了，另外两家两周内就追上来。

这个拐点对你意味着什么

如果你还没有在日常开发中使用编程 Agent，2025 年 11 月之后的模型值得重新评估。之前试过觉得不好用的人，现在的体验会完全不同。

如果你已经在用了，留意一下自己的使用模式有没有从「Vibe Coding」进化到「Agentic Engineering」。前者是把代码扔给 AI 然后祈祷，后者是设计约束条件然后验证结果。

如果你在做技术决策，这个拐点意味着 AI 编程工具已经不是「锦上添花」而是「基础设施」。不用 Agent 的团队和用 Agent 的团队之间的效率差距，从 11 月开始在快速拉大。

Willison 的演讲标题是「过去六个月」，但他实际上在说：我们生活在拐点之后的世界里。回不去了。

这是 AI Agent 系列的第七篇。前几篇：