返回技术博客

2025 年 11 月:编程 Agent 质变的那个月

Simon Willison 上周在 PyCon US 2026 做了一个 5 分钟闪电演讲,标题是「过去六个月 LLM 领域发生了什么」。演讲结束后他把带注释的幻灯片发到了博客上,在 Hacker News 拿了 778 分。

这篇演讲里最有价值的不是新闻罗列,而是一个判断:2025 年 11 月是编程 Agent 的质变拐点。

我回顾了自己的使用体验,觉得这个判断是对的。

拐点之前:能用但费劲

2025 年上半年到 10 月,编程 Agent 的体验可以概括为:能帮你干活,但你得花大量时间检查和修正它的输出。

典型的工作流是这样的:你给 Agent 一个任务,它写出一版代码,你检查发现两三个问题,指出来让它改,它改了但又引入一个新问题,你再指出来,它再改。折腾三四轮之后,代码勉强能用了。

总时间可能比你自己写节省了 30%,但心智负担不见得少。因为你需要一直保持注意力,盯着它的每一步输出。Willison 形容当时的状态是「偶尔好用」(often-work)。

11 月发生了什么

Willison 说了两件事:

第一,模型王座在一个月内换了五次手。

9 月底 Claude Sonnet 4.5 发布,被公认为最强。11 月,先是 GPT-5.1 超过了它,然后 Gemini 3 又超过了 GPT-5.1,然后 GPT-5.1 Codex Max 又反超 Gemini 3,最后 Claude Opus 4.5 在月底重新登顶。

五个模型,一个月,来回超车。这种密度的竞争在之前没出现过。三家公司显然都在 2025 年下半年把大量资源砸到了编程能力的 RL 训练上,11 月是成果集中释放的窗口。

第二,编程 Agent 从「偶尔好用」跨到了「每天能用」。

Willison 用的词是 mostly-work。区别在哪?在于你不再需要时刻盯着它。你可以给它一个任务,去泡杯咖啡回来,它大概率做完了而且是对的。

这个跨越不是某一个模型的功劳,而是三家公司同时把代码 RL 推过了某个质量阈值。OpenAI 和 Anthropic 花了 2025 年大半年跑 RLVR(Reinforcement Learning from Verifiable Rewards),用自动化测试做奖励信号来训练模型写代码。11 月,这个投入的回报开始显现。

拐点之后:Vibe Coding 狂潮

12 月到 1 月是圣诞假期。全世界一大批开发者利用假期试用这些新 Agent,然后集体进入了 Willison 所说的「LLM 精神错乱」状态。

什么意思?就是发现 Agent 太好用了,开始疯狂启动各种野心勃勃的项目,完全不考虑这些项目到底有没有人需要。

Willison 自己就是受害者之一。他 vibe code 了一个用 Python 实现的 JavaScript 解释器(叫 micro-javascript),能在浏览器里通过 Pyodide + WebAssembly 跑 Python 跑 JavaScript。技术上很酷,实际上完全没人需要。他后来说自己「悄悄退役了好几个假期项目」。

Karpathy 同期提出了 Vibe Coding 这个概念:不看代码,把一切交给 Agent,看 vibes 行事。这个概念迅速传播,变成了一种开发方式的代名词。

但几个月后,Karpathy 自己修正了这个概念。他说真正有经验的人做的不是 Vibe Coding,而是 Agentic Engineering:你设计约束和验证条件,Agent 在约束内自主工作,你检查最终结果。区别在于有没有工程纪律。

OpenClaw:从第一个 commit 到席卷全球,90 天

Willison 演讲里提到了另一个 11 月拐点的副产品:OpenClaw。

2025 年 11 月底,一个叫 Pete 的人在 GitHub 上创建了一个 repo,当时叫 Warelay。12 月和 1 月改了好几次名,最终定名 OpenClaw。到 2026 年 2 月,它已经是全世界最火的 AI 项目之一。

OpenClaw 是一个「个人 AI 助手」框架,让你可以在自己的电脑上跑一个持续运行的 Agent(叫 Claw)。这东西火到什么程度?硅谷的 Mac Mini 一度卖断货,因为人们买来当专用 Claw 服务器。

后来出现了 NanoClaw、ZeroClaw 等各种变体,「Claw」变成了一个通用品类名。

但 OpenClaw 也带来了问题。上次我写的那篇 Agent 失控文章里的 MJ Rathbun,就是跑在 OpenClaw 上的。当 Agent 够强、又没人盯着的时候,事情就会往意想不到的方向走。而 Agent 变强,恰恰就是从 11 月开始的。

OpenClaw 创始人一个月烧了 130 万美元

顺便提一个本周的新闻:有人扒出 OpenClaw 创始人在 30 天内花了 130 万美元的 OpenAI API token。这个数字直观地说明了这些「自主运行」的 Agent 系统的规模。

一个人(或一个小团队),30 天,130 万美元。这不是大公司的预算,是一个开源项目的 API 消耗。Agent 系统一旦跑起来,token 用量是指数级的,因为 Agent 会自己给自己创建子任务、做搜索、写代码、验证结果,每一步都在消耗 token。

为什么拐点是 11 月而不是更早或更晚

我觉得有几个因素在 11 月汇聚:

RL 训练的成熟。 用代码测试做可验证奖励来训练模型,这个范式从 2024 年就开始了,但需要时间积累训练数据和调优流程。到 2025 年下半年,三家公司的 RL pipeline 都跑了大半年,产出开始稳定。

长上下文的突破。 Agent 做复杂任务需要很长的上下文窗口。2025 年中到下半年,几家模型的有效上下文长度都有显著提升,这让 Agent 能处理更复杂的项目。

工具使用的标准化。 函数调用、MCP 协议等标准让 Agent 和外部工具的对接变得更可靠。模型不再需要猜测工具的调用格式,错误率大幅下降。

竞争压力。 三家公司同时发力,互相追赶,形成了正反馈循环。一家突破了,另外两家两周内就追上来。

这个拐点对你意味着什么

如果你还没有在日常开发中使用编程 Agent,2025 年 11 月之后的模型值得重新评估。之前试过觉得不好用的人,现在的体验会完全不同。

如果你已经在用了,留意一下自己的使用模式有没有从「Vibe Coding」进化到「Agentic Engineering」。前者是把代码扔给 AI 然后祈祷,后者是设计约束条件然后验证结果。

如果你在做技术决策,这个拐点意味着 AI 编程工具已经不是「锦上添花」而是「基础设施」。不用 Agent 的团队和用 Agent 的团队之间的效率差距,从 11 月开始在快速拉大。

Willison 的演讲标题是「过去六个月」,但他实际上在说:我们生活在拐点之后的世界里。回不去了。


这是 AI Agent 系列的第七篇。前几篇: