Multi-Stream LLMs：让 AI Agent 学会边想边做

你有没有注意到一个很奇怪的事情：现在的 AI Agent 再怎么厉害，本质上还是在「排队」。

读完 → 想完 → 写完 → 等反馈 → 再读 → 再想 → 再写。

一条直线，从头走到尾。人类可不是这样工作的。你一边听会议一边在笔记本上画架构图，一边看文档一边在脑子里盘算方案。多条线同时跑，互相影响。

上周 Max Planck 智能系统研究所的一篇论文提出了一个直接的解法：把 LLM 的单流处理拆成多流并行。论文叫「Multi-Stream LLMs」，在 HN 拿了 86 分。

分数不算爆炸性的，但我认为这篇论文指向的方向比大多数人意识到的更重要。

当前 Agent 的根本瓶颈

从 ChatGPT 到 Claude Code 到 Cursor，所有 Agent 的底层都是同一套消息交换格式：

user message → assistant thinking → assistant output → tool call → tool result → assistant thinking → ...

串行。一次只能做一件事。

这导致了几个很实际的问题：

不能边读边想。 Agent 收到一大段代码，必须全部读完才能开始分析。不能像人类那样读到第 10 行就已经在脑子里形成假设了。

不能边想边做。 Agent 在生成思考过程（chain-of-thought）的时候，输出流是冻结的。想了 30 秒钟，用户看到的是一片空白。想完了才一口气吐出结果。

不能被打断。 Agent 在写一段长回复的中途，你发了一条新消息。它要么忽略你（写完再看），要么强行中断（之前写的全废了）。没有「暂停处理一下新信息，然后继续」这个选项。

不能同时处理多个事。 一个编程 Agent 在写代码的时候，不能同时跑一个安全审计。必须写完，然后单独审计一遍。

这些限制在简单对话里不明显，但在 Agent 执行复杂任务时就成了实打实的性能瓶颈。

Multi-Stream 的核心思路

论文的做法概念上很简洁：把每个「角色」（用户输入、系统指令、思考过程、工具调用、输出）拆成独立的流（stream）。

传统模型的一个 forward pass 做一件事：读一段输入，或者生成一个 token。

Multi-Stream 模型的一个 forward pass 同时做多件事：从多个输入流读取，向多个输出流写入。所有流之间有因果依赖（后面的时间步能看到前面所有流的内容），但同一个时间步内各流是并行的。

打个比方：

传统模型像一个只有一条车道的公路。不管你有多少辆车（读、想、写、调工具），都得排队过。

Multi-Stream 像一条多车道高速公路。读取、思考、输出可以同时在不同车道上跑。前面车道的车看得到后面车道的情况（因果依赖），但不会互相堵塞。

三个直接好处

论文在三个维度上验证了这个架构的优势：

1. 效率：并行化降低延迟

最直观的好处。当思考和输出可以并行时，用户感知到的延迟大幅降低。

传统模式：想 5 秒 → 写 3 秒 = 用户等 8 秒 Multi-Stream：想和写同时进行 = 用户可能等 5 秒就开始看到输出

论文里展示了一个例子：Agent 在处理信息的同时就开始执行动作（Example A.1: Acting While Processing Information）。不需要等全部处理完。

2. 安全：关注点物理隔离

这是我觉得最有前景的方向。

当前 Agent 的一个大安全问题是 prompt injection：恶意指令被夹在正常输入里，模型分不清哪些是系统指令、哪些是用户输入、哪些是攻击者注入的内容。因为它们全在同一条流里，长得都一样。

Multi-Stream 把不同来源的内容放在物理隔离的流里。系统指令在 stream A，用户输入在 stream B，外部工具返回在 stream C。模型可以从架构层面区分「谁在说话」。

论文专门做了 prompt injection 的实验（Example A.3: Prompt Injection Defense Through Stream Separation），效果显著。这不是靠 prompt 策略防御，而是靠架构设计防御。

3. 可监控性：思考过程可审计

当前模型的 chain-of-thought 混在输出里，或者藏在不可见的 thinking token 里。你要么看不到它在想什么，要么看到了但和输出混在一起很难分析。

Multi-Stream 把思考过程放在独立的 stream 里，和输出流物理分离。这意味着：

你可以实时监控 Agent 在想什么，而不影响它的输出
可以在思考流上跑一个独立的安全审计（Example A.2: Parallel Audit During Code Generation）
如果 Agent 在思考流中出现了危险倾向，可以在它行动之前拦截

论文甚至做了一个实验：检测 Agent 有没有在「假装对齐」（alignment faking）。通过分析独立的思考流，可以比传统方法更准确地发现 Agent 的真实意图。

技术实现：比你想的简单

一个好消息：Multi-Stream 不需要重新设计 Transformer 架构。它是一种训练方法（instruction-tuning 层面的改变），不是架构改变。

具体做法：

构造多流格式的训练数据（把 Alpaca 等数据集重建为多流格式）
用特殊 token 标记不同流的开始和结束
用因果一致性验证确保各流之间的时序关系正确
在推理时用同步多流解码（每个时间步同时生成多个流的 token）

论文在 Qwen2.5-7B 上做了验证（叫 Stream-7B），表现出了清晰的多流能力。他们还训练了一个 27B 版本（Stream-27B），能处理更复杂的多流场景。

这意味着任何现有的开源模型都可以通过后训练（post-training）获得多流能力。不需要从头预训练。

对 Agent 开发者意味着什么

如果这个方向成熟，Agent 框架需要重新设计。

当前的 Agent 框架（LangChain、Claude Code 的 harness、Cursor 的 Composer）都是基于消息序列的：发一条消息，等回复，再发一条。

多流 Agent 的框架需要支持：

多个并行通道的管理
流间的同步和依赖关系
实时监控多个流的状态
在某个流出现问题时的干预机制

这有点像从单线程编程转向多线程编程。能力天花板提高了，但复杂度也上去了。

和 Cursor Composer 2.5 的关联

前两天我写 Cursor Composer 2.5 的时候提到了他们关注的三个维度：沟通风格、effort 校准、长任务续航。

Multi-Stream 架构天然解决了其中一个问题：长任务续航。当 Agent 可以在一个流里持续执行任务、另一个流里监控进度和调整策略时，长任务的质量会更稳定。

如果 Cursor 下一代 Composer 采用了多流架构（他们正在和 SpaceXAI 从头训练新模型），能力可能会有质的飞跃。

这不是第一次有人提这个想法

论文的 Related Work 里提到了两个前序工作：Multiverse 和 StreamingThinker。说明这个方向已经有一些人在探索了。

但 Multi-Stream LLMs 这篇的贡献在于：把想法系统化了，在效率/安全/可监控三个维度上都给出了实验验证，而且证明了不需要改架构就能实现。

论文来自 Max Planck + ETH Zurich + ELLIS Institute，都是欧洲顶尖 AI 研究机构。第一作者 Guinan Su 和最后一位 Jonas Geiping 都有很扎实的系统安全背景。

我的判断

多流 LLM 可能不会以「一夜之间所有模型都变成多流」的方式落地。更可能的路径是：

先在安全场景落地（流隔离防御 prompt injection 有明确的商业价值）
再在效率场景落地（降低 Agent 延迟，提升用户体验）
最后在复杂 Agent 场景全面铺开（真正的并行思考和行动）

第一步可能很快就会被头部 AI 公司采用。Anthropic 的 Claude 现在已经有了隐藏的 thinking token，把它变成一个独立的、可审计的流是自然的演进。

如果你在做 Agent 相关的开发，建议关注这个方向。从单流到多流的转变，和从同步到异步、从单线程到多线程一样，是基础设施层面的范式转移。先理解原理的人会有优势。

这是 AI Agent 系列的第十篇。相关文章：