返回技术博客

编程 Agent 的下一步:从个人神器到团队基础设施

今年三月,一个叫 Gus 的创业者在 Hacker News 上发了一篇 Launch 帖子。他说自己用编程 Agent 三个月连续写了四个全栈产品。然后他尝试把这个工作流推广到整个团队。

结果:大部分 PR 是不可合并的垃圾代码。每个仓库都需要工程师做一次性的本地环境配置。上下文和技巧全在一个人脑子里。PM 想碰一下真实代码库,随时可能搞坏部署或者泄露密钥。

这段话描述了一个正在发生的行业级问题。编程 Agent 作为个人生产力工具已经被验证了,但「一个人能跑通」和「一个团队能跑通」之间隔着一道深沟。

个人能跑通,团队跑不通

为什么个人开发者用 Claude Code 或 Cursor 效果那么好,团队推广却一团糟?

因为个人开发者的脑子里装着三样东西是 Agent 自己没有的:

环境知识。 你知道这个项目需要先起 Redis,再起 Kafka,然后跑一遍 seed 脚本。你知道 .env.local 里要配哪些变量。你知道 Docker Compose 要加 --build 才能拿到最新镜像。这些你从来不需要告诉 Agent,因为你的本地环境已经是对的了。

代码审美。 你扫一眼 Agent 写出来的代码就知道哪些可以留、哪些要改、哪些必须删掉重来。你知道项目的命名规范、架构分层、错误处理模式。Agent 吐出来的东西通过了你脑子里的过滤器才会进入代码库。

风险直觉。 你知道哪些操作是安全的(跑测试、改样式),哪些是危险的(碰数据库迁移、改支付逻辑、动 CI 配置)。你会在关键节点暂停审查。

当你把 Agent 交给不具备这三样东西的人(PM、设计师、客服、甚至新入职的工程师),灾难就来了。不是 Agent 变蠢了,是使用 Agent 的人缺少那层隐性过滤器。

Runtime 模式:在 Agent 和生产环境之间加一层

Runtime(YC P26 批次,今年三月上线)给出的方案是:在 Agent 和你的真实代码库之间插入一层基础设施。

它的工作方式是这样的:

工程师定义一次上下文。 系统指令、技能、需要的集成,装好一次就行。类似于你把自己脑子里的环境知识文档化了。

环境快照。 Runtime 把你完整的运行环境做快照,包括多服务 Docker Compose、Kafka、Redis、已 seed 的数据库。新会话启动时间降到毫秒级,所有服务都已经在跑了。这解决了「每个人本地环境不一样」的问题。

密钥隔离。 密钥通过托管代理注入,永远不直接暴露给 Agent。这意味着 PM 可以让 Agent 调用需要 API key 的服务,但 Agent 拿不到明文 key。

基础设施级护栏。 命令白名单/黑名单、网络出口控制、按人和按 Agent 分配的 RBAC 权限。不是靠 Agent 自己「懂规矩」,而是在 infra 层面硬性限制它能做什么。

Agent 无关。 Runtime 不绑定具体的 Agent 产品。Claude Code、Codex、Cursor、Copilot、Gemini CLI、Devin 都可以接进来。你的团队用什么 Agent 不重要,Runtime 管的是 Agent 跑在什么环境里、能碰什么东西。

从触发方式看团队化

个人开发者用 Agent 的方式是:打开终端,输入指令,看着它干活。

团队用 Agent 的方式不应该是这样的。Runtime 支持从 Slack、Linear、GitHub、Jira 或 API 触发沙箱。这意味着:

产品经理在 Linear 上创建一个 Issue,@一下 Agent,它就会在沙箱里起环境、读上下文、写代码、开 PR。PM 拿到的是一个可以 review 的 Pull Request,不是一堆终端输出。

他们的一个客户搭了一个 on-call 检查器:PagerDuty 告警触发时,Agent 自动关联 Sentry 错误和代码仓库,找到原因,开一个带单元测试的 PR,整个过程在任何人被 page 之前就完成了。

另一个客户跑了一个财务 Agent,在私有 Slack 频道里从 Stripe、NetSuite、Snowflake 拉数据做对账,几分钟出结果,附带源数据行。

这些场景的共同特点是:使用 Agent 的人不需要是工程师,不需要会配环境,不需要理解 Git。他们只需要能描述自己想要什么。

行业趋势:每个 Agent 都在往团队方向走

不只是 Runtime。如果你观察整个编程 Agent 领域,你会发现「团队化」已经是主旋律:

Claude Code 从 Max 计划(个人)到 Enterprise 计划(团队),加了权限管理、审计日志、组织级配置。Anthropic 明确在推企业场景。

Cursor 推出了 Business 和 Enterprise 版本,支持 SSO、集中管理、使用统计。一个编辑器插件变成了需要 IT 采购流程的企业软件。

OpenAI Codex 从一开始就定位在云端异步执行,PR 审查后合并,本质上就是为团队场景设计的。

Devin 直接定位为「AI 软件工程师」,交互方式是给它分配任务然后等 PR,不需要你坐在旁边盯着。

所有这些产品都在往同一个方向收敛:Agent 不再是你个人 IDE 里的一个 Tab,而是团队工程流水线上的一个节点。

新的分层正在形成

如果我们把这个趋势抽象一层,可以看到编程 Agent 的技术栈正在分化成三层:

模型层。 Claude、GPT、Gemini、开源模型。负责「能不能写出正确的代码」。这一层的竞争是模型能力的竞争。

Agent 层。 Claude Code、Cursor、Codex、Devin。负责「怎么用模型和工具完成一个编程任务」。这一层的竞争是交互设计和编排能力的竞争。

Runtime 层。 Runtime、E2B、Daytona、各公司内建的 infra。负责「Agent 在什么环境里跑、能碰什么东西、谁有权限触发它」。这一层的竞争是基础设施能力的竞争。

这个分层意味着什么?意味着 Agent 层的产品越来越可替换。你今天用 Claude Code,明天换 Codex,对团队的影响应该是最小的,因为环境、权限、护栏、集成都在 Runtime 层管理。

隐忧

这个方向有一个显而易见的风险:让非工程师直接操作代码库,哪怕有护栏,代码质量怎么保证?

HN 评论区有人问了这个问题:「如果市场部给我提了一个 PR,我看了一眼代码觉得不行,接下来该怎么办?」

这是一个真实的担忧。Agent 生成的代码能跑通不等于代码质量合格。目前的方案是:所有 Agent 产出都走 PR 流程,工程师做 code review,不合格就打回。本质上和今天 review 初级工程师的 PR 没有区别。

但这引出了下一个问题:如果团队里每个人都能触发 Agent 生成 PR,工程师会不会被 review 任务淹没?Agent 提高了代码的生产速度,但 review 的带宽是有限的。

目前没有人给出完美答案。可能的方向是让 Agent 也参与 review(用另一个 Agent 审查第一个 Agent 的代码),或者引入自动化质量门禁(测试覆盖率、类型检查、linting 必须全绿才允许进入人工 review 队列)。

结论

编程 Agent 从个人工具进化为团队基础设施,这件事正在发生,速度比大多数人预期的快。Runtime 这样的产品之所以能拿到 YC 的投资,是因为它切中了一个真实痛点:Agent 的能力已经到了,但团队使用的基础设施还没跟上。

对开发者来说,这意味着两件事:

第一,学会用 Agent 只是第一步。真正的壁垒在于能不能把 Agent 的能力封装成团队可复用的工作流。谁能把「我个人用 Agent 很爽」变成「我团队十个人同时用 Agent 产出稳定」,谁就有了新的职业优势。

第二,基础设施工程师的角色正在扩展。以前你管的是 CI/CD、容器编排、服务网格。现在你可能还要管 Agent 的执行环境、权限模型、护栏策略。「Agent Ops」这个岗位可能在一年内出现在招聘网站上。

这是一个正在发生的转变。个人英雄主义的时代(一个人 + Agent 产出四个产品)很快会变成团队协作的时代(十个人 + Agent 产出四十个产品)。区别在于,后者需要一整套工程化的支撑体系。


这是 AI Agent 系列文章。相关阅读: