Google 让 AI 像科学家一样辩论：Co-Scientist 的多 Agent 协作架构

5 月 19 号，Google DeepMind 在 Nature 上发了一篇论文，同时开放了一个叫 Co-Scientist 的工具。标题写的是「加速科学研究的多 Agent AI 伙伴」。

如果你只看标题，可能觉得又是一个「AI 辅助科研」的 PR 稿。但仔细看它的架构设计，会发现这可能是目前公开的、最完整的多 Agent 协作系统实现。

它解决的核心问题不是「让 AI 帮你搜论文」，而是「让 AI 帮你想出值得测试的科学假说」。这两件事的难度差了好几个数量级。

为什么假说生成这么难

科学发现的流程大概是这样的：读大量论文 → 发现某个空白 → 提出一个假说 → 设计实验验证。

卡在第二步和第三步的人最多。问题不是读不完论文（虽然确实读不完），而是你读完了也不一定能把不同领域的信息关联起来。

一个肝纤维化的研究者，可能需要同时了解表观遗传学、药物代谢动力学、临床试验数据、基因调控网络。这些信息散落在几千篇论文里，一个人穷尽一生也很难全部消化。

所以 Co-Scientist 要解决的问题是：能不能让 AI 替你做「关联不同领域信息 → 提出新假说」这一步？

答案是可以，但不能用一个 Agent 来做。

六个 Agent 的分工

Co-Scientist 的核心是六个基于 Gemini 的专业 Agent，加一个 Supervisor Agent 做调度。每个 Agent 有明确的职责：

Generation Agent（生成者）：负责第一步，读文献、读数据库，提出初始假说。它的输出是大量的、粗糙的、可能很天马行空的想法。

Proximity Agent（聚类者）：把生成的假说做聚类和去重。确保系统探索的方向足够多样，不会一直在同一个角落打转。

Reflection Agent（审查者）：扮演「虚拟同行评审」的角色。它会对每个假说做正确性、质量、新颖性的评估。像真正的论文审稿人一样挑毛病。

Ranking Agent（排名者）：组织一场「假说锦标赛」。让假说两两对比，模拟科学辩论，用 Elo 评分系统（和国际象棋排名一样的算法）给假说排序。

Evolution Agent（进化者）：拿排名靠前的假说做组合、变异、优化。把 A 假说的一部分和 B 假说的一部分拼在一起，看能不能产生更好的 C。

Meta-review Agent（综合者）：汇总辩论中的所有信息，优化系统参数，最终输出给科学家看的研究提案。

上面坐着一个 Supervisor Agent，负责把研究者的目标拆解成具体步骤，协调各个 Agent 并行工作。

关键设计：锦标赛机制

这套系统里最有意思的不是单个 Agent 的能力，而是它们之间的协作方式。

传统的做法是「一个大模型想一次，输出一个答案」。稍微好一点的做法是「想多次，人工挑一个最好的」。Co-Scientist 的做法更激进：让 Agent 之间互相辩论，用竞争来筛选质量。

具体来说，Ranking Agent 会把假说配对，然后让两个 Agent 分别站在一边辩论：「为什么你这个假说比对面那个好？」「对面的假说有什么致命缺陷？」

辩论结束后用 Elo 评分更新排名。排在前面的假说进入下一轮，继续接受挑战。排在后面的被淘汰。同时 Evolution Agent 会拿高排名的假说做交叉和变异，产生新的挑战者注入锦标赛。

这个过程迭代很多轮，直到收敛。

为什么这样做有效？因为生成假说容易，验证假说难。一个 LLM 可以在 30 秒内编造出一个看起来合理的假说，但判断它是不是真的合理需要深入的推理。让 Agent 互相攻击对方的假说，本质上是用对抗机制来提高验证的深度。

真实实验结果

论文里报告了几个合作案例：

斯坦福大学 Gary Peltz 的肝纤维化研究：Co-Scientist 提出了几个被忽视的「老药新用」候选方案。其中一个在实验室测试中阻断了 91% 的纤维化相关反应。结果发表在 Advanced Science 上。

MIT 的 ALS 研究：系统帮助 Ritu Raman 的实验室快速消化跨领域文献，发现了 RNA 方法治疗 ALS 的新路径。她说 Co-Scientist「帮她结构化了思考，让她知道该去问其他专家什么问题」。

细胞逆龄研究：Omar Abudayyeh 和 Jonathan Gootenberg 用它来筛选能逆转细胞衰老的基因靶点。系统把需要几个月分析的大规模筛选数据集压缩到了几天。他的原话是：「就像身边有一个 50 人的团队在帮你干活，而且当天就出结果。」

Calico（Google 旗下抗衰老公司）：系统自主生成了一个关于「整合应激反应」的假说，后来在实验中被证实了。研究者说：「让我兴奋也让我吃惊的是，它思考的方式真的很像一个科学家。」

对 Agent 开发者的启示

如果你在做多 Agent 系统，Co-Scientist 有几个设计选择值得注意：

1. 专业化优于通用化

它没有用一个超级 Agent 来干所有事。每个 Agent 只做一件事，做到极致。生成归生成，评审归评审，排名归排名。这样做的好处是每个 Agent 的 prompt 可以高度专业化，不会因为要处理太多不同类型的任务而质量下降。

2. 对抗机制是质量的来源

不是简单地生成后过滤，而是让假说之间进行对抗性辩论。这和 GAN 的思路类似：用对抗来逼出更高质量的输出。单纯靠一个模型自己打分，容易形成自我偏见。让两个方案互相攻击，能暴露出更深层的问题。

3. 用进化替代穷举

假说空间是无限的，不可能遍历。Co-Scientist 的做法是先广撒网（Generation），然后用锦标赛淘汰弱者，再用 Evolution 在强者基础上产生新变体。这是经典的进化算法思路，但用 LLM 做了变异和交叉操作。

4. 验证的计算量远大于生成

论文里提到，系统「大部分算力花在验证假说上」。生成一个假说只需要一次 LLM 调用，但验证它可能需要搜索文献数据库（ChEMBL、UniProt）、调用 AlphaFold 预测蛋白结构、做逻辑一致性检查。这对所有做 Agent 系统的人都是一个提醒：别只关注生成能力，验证能力才是决定系统可靠性的关键。

局限和开放问题

当然这个系统也有明显的限制。

它目前只能输出假说，不能做实验。最终还是需要人类科学家去实验室验证。如果假说全错了，人去验证就是浪费时间和经费。论文报告了成功案例，但没说失败率是多少。

另外，系统需要接入大量外部数据源（ChEMBL、UniProt、AlphaFold、网页搜索）才能工作。如果你的研究领域的知识主要以非结构化的形式存在（比如临床经验、未发表的实验数据），它可能帮不了太多。

还有一个更根本的问题：AI 提出的假说，研究者会不会产生锚定效应？就是说，如果 AI 给了一个方向，人类是不是更倾向于去验证那个方向，而忽略了其他可能性？这个问题目前没有答案。

从工具到队友

回到这个系列的主题。前几篇我们讨论了 Agent 的定义、协议、进化、失控。Co-Scientist 提供了另一个视角：当多个 Agent 被正确地组织起来，用对抗和进化机制协作，它们能做出单个 Agent（或单个人类）做不到的事。

Gary Peltz 的评价可能最准确：「它感觉像一个读完了所有生物医学文献的合作者，而且有足够的推理能力找到我们正在遗漏的关联。」

不是替代科学家，是给科学家装了一个涡轮增压器。

这是 AI Agent 系列的第五篇。前几篇：