Simon Willison PyCon 2026 演讲:过去 6 个月 LLM 世界发生了什么
Simon Willison 在 PyCon US 2026 上做了一场 5 分钟闪电演讲,回顾了 2025 年 11 月到 2026 年 5 月 LLM 领域的重大变化。这篇 791 分的 HN 热帖浓缩了半年来最重要的趋势。以下是核心内容。
2025 年 11 月:拐点月
Simon 将 2025 年 11 月称为 "inflection point"(拐点月)。这个月里,"最佳"模型的王座在 Anthropic、OpenAI、Google 三家之间 五次易手:
- Claude Sonnet 4.5(9 月发布,11 月前的王者)
- GPT-5.1(11 月 13 日)
- Gemini 3(11 月 18 日)
- GPT-5.1 Codex Max(11 月 19 日)
- Claude Opus 4.5(11 月 24 日,重新夺冠)
但真正的拐点不是某个模型,而是 编程 Agent 集体跨过了"可用"门槛。OpenAI 和 Anthropic 在 2025 年大部分时间里使用 RLVR(Reinforcement Learning from Verifiable Rewards)提升代码质量,11 月成果显现。
Simon 的原话:
"Coding agents went from often-work to mostly-work, crossing a quality barrier where you could use them as a daily-driver to get real work done, without needing to spend most of your time fixing their stupid mistakes."
LLM 狂热症
2025 年末的假期期间,大量开发者陷入了 Simon 所说的 "LLM psychosis"(LLM 精神狂热)——疯狂尝试新模型、启动野心勃勃的项目。
Simon 自己也不例外。他用 AI 写了一个 micro-javascript(用 Python 实现的 JavaScript 解释器),最终的效果是"JavaScript 跑在 Python 里,Python 跑在 Pyodide 里,Pyodide 跑在 WebAssembly 里,WebAssembly 跑在 JavaScript 里"。
他的自嘲相当经典:
"Did anyone out there need a buggy, slow, insecure half-baked implementation of JavaScript in Python? They did not."
假期过后,很多这样的项目被悄悄下线了。
OpenClaw 风暴
2025 年 11 月 24 日,一个叫 steipete 的开发者创建了一个不起眼的 GitHub 仓库 "Warelay"。经过多次改名(Warelay → CLAWDIS → CLAWDBOT → OpenClaw),到 2026 年 2 月,它以 OpenClaw 之名席卷全球。
"Claw" 成为新品类。NanoClaw、ZeroClaw 等衍生项目涌现,"个人 AI 助手"被统称为 Claws。硅谷的 Mac Mini 卖断货,因为人们买来运行自己的 Claw。
Drew Breunig 的比喻最为精妙:
"Mac Mini is the perfect aquarium for your Claw."
它们是新时代的电子宠物。
中国开源模型的崛起
Simon 花了大量篇幅讨论 2026 年 4 月的开源模型爆发,特别是两个中国模型:
GLM-5.1:754B 参数,1.51TB 大小,MIT 许可。Simon 评价:"a very effective model... if you can afford the hardware to run it."
Qwen3.6-35B-A3B:只有 20.9GB,可以在笔记本电脑上运行。关键是——它在"鹈鹕骑自行车"测试中 画得比 Claude Opus 4.7 还好。
"鹈鹕骑自行车"是 Simon 发明的 AI 创造力基准测试:鹈鹕难画、自行车难画、鹈鹕不会骑自行车、没有 AI 公司会专门为此优化训练。这个测试衡量的是模型的真实泛化能力。
当一个笔记本上跑的开源模型在这个任务上超越了顶级商业模型时,Simon 幽默地说:
"I think this mainly demonstrates that the pelican on the bicycle has firmly exceeded its limits as a useful benchmark."
两大核心结论
Simon 在最后一张幻灯片总结了过去 6 个月的两大主题:
- "Coding agents got really good" —— 编程 Agent 真的变好了
- "Local models wildly outperform expectations" —— 本地模型远远超出预期
第二点对中国开发者特别有意义。GLM-5.1 和 Qwen3.6 被这位最有影响力的 LLM 观察者重点提及,中国开源力量正在被全球社区认真对待。
对我们的启示
Simon Willison 的半年复盘给出了几个值得思考的信号:
- 编程 Agent 已经可以当主力工具使用,不再是玩具。但也要警惕 "LLM psychosis"——新工具带来的狂热期连资深从业者也会中招
- 开源模型与闭源模型的差距在迅速缩小,某些任务上已经反超
- 个人 AI 助手(Claw)正在成为独立品类,这可能是 2026 年最重要的消费级 AI 趋势
原文:Simon Willison, "The last six months in LLMs in five minutes", PyCon US 2026 闪电演讲