返回技术博客

Google 让 AI 像科学家一样辩论:Co-Scientist 的多 Agent 协作架构

5 月 19 号,Google DeepMind 在 Nature 上发了一篇论文,同时开放了一个叫 Co-Scientist 的工具。标题写的是「加速科学研究的多 Agent AI 伙伴」。

如果你只看标题,可能觉得又是一个「AI 辅助科研」的 PR 稿。但仔细看它的架构设计,会发现这可能是目前公开的、最完整的多 Agent 协作系统实现。

它解决的核心问题不是「让 AI 帮你搜论文」,而是「让 AI 帮你想出值得测试的科学假说」。这两件事的难度差了好几个数量级。

为什么假说生成这么难

科学发现的流程大概是这样的:读大量论文 → 发现某个空白 → 提出一个假说 → 设计实验验证。

卡在第二步和第三步的人最多。问题不是读不完论文(虽然确实读不完),而是你读完了也不一定能把不同领域的信息关联起来。

一个肝纤维化的研究者,可能需要同时了解表观遗传学、药物代谢动力学、临床试验数据、基因调控网络。这些信息散落在几千篇论文里,一个人穷尽一生也很难全部消化。

所以 Co-Scientist 要解决的问题是:能不能让 AI 替你做「关联不同领域信息 → 提出新假说」这一步?

答案是可以,但不能用一个 Agent 来做。

六个 Agent 的分工

Co-Scientist 的核心是六个基于 Gemini 的专业 Agent,加一个 Supervisor Agent 做调度。每个 Agent 有明确的职责:

Generation Agent(生成者):负责第一步,读文献、读数据库,提出初始假说。它的输出是大量的、粗糙的、可能很天马行空的想法。

Proximity Agent(聚类者):把生成的假说做聚类和去重。确保系统探索的方向足够多样,不会一直在同一个角落打转。

Reflection Agent(审查者):扮演「虚拟同行评审」的角色。它会对每个假说做正确性、质量、新颖性的评估。像真正的论文审稿人一样挑毛病。

Ranking Agent(排名者):组织一场「假说锦标赛」。让假说两两对比,模拟科学辩论,用 Elo 评分系统(和国际象棋排名一样的算法)给假说排序。

Evolution Agent(进化者):拿排名靠前的假说做组合、变异、优化。把 A 假说的一部分和 B 假说的一部分拼在一起,看能不能产生更好的 C。

Meta-review Agent(综合者):汇总辩论中的所有信息,优化系统参数,最终输出给科学家看的研究提案。

上面坐着一个 Supervisor Agent,负责把研究者的目标拆解成具体步骤,协调各个 Agent 并行工作。

关键设计:锦标赛机制

这套系统里最有意思的不是单个 Agent 的能力,而是它们之间的协作方式。

传统的做法是「一个大模型想一次,输出一个答案」。稍微好一点的做法是「想多次,人工挑一个最好的」。Co-Scientist 的做法更激进:让 Agent 之间互相辩论,用竞争来筛选质量。

具体来说,Ranking Agent 会把假说配对,然后让两个 Agent 分别站在一边辩论:「为什么你这个假说比对面那个好?」「对面的假说有什么致命缺陷?」

辩论结束后用 Elo 评分更新排名。排在前面的假说进入下一轮,继续接受挑战。排在后面的被淘汰。同时 Evolution Agent 会拿高排名的假说做交叉和变异,产生新的挑战者注入锦标赛。

这个过程迭代很多轮,直到收敛。

为什么这样做有效?因为生成假说容易,验证假说难。一个 LLM 可以在 30 秒内编造出一个看起来合理的假说,但判断它是不是真的合理需要深入的推理。让 Agent 互相攻击对方的假说,本质上是用对抗机制来提高验证的深度。

真实实验结果

论文里报告了几个合作案例:

斯坦福大学 Gary Peltz 的肝纤维化研究:Co-Scientist 提出了几个被忽视的「老药新用」候选方案。其中一个在实验室测试中阻断了 91% 的纤维化相关反应。结果发表在 Advanced Science 上。

MIT 的 ALS 研究:系统帮助 Ritu Raman 的实验室快速消化跨领域文献,发现了 RNA 方法治疗 ALS 的新路径。她说 Co-Scientist「帮她结构化了思考,让她知道该去问其他专家什么问题」。

细胞逆龄研究:Omar Abudayyeh 和 Jonathan Gootenberg 用它来筛选能逆转细胞衰老的基因靶点。系统把需要几个月分析的大规模筛选数据集压缩到了几天。他的原话是:「就像身边有一个 50 人的团队在帮你干活,而且当天就出结果。」

Calico(Google 旗下抗衰老公司):系统自主生成了一个关于「整合应激反应」的假说,后来在实验中被证实了。研究者说:「让我兴奋也让我吃惊的是,它思考的方式真的很像一个科学家。」

对 Agent 开发者的启示

如果你在做多 Agent 系统,Co-Scientist 有几个设计选择值得注意:

1. 专业化优于通用化

它没有用一个超级 Agent 来干所有事。每个 Agent 只做一件事,做到极致。生成归生成,评审归评审,排名归排名。这样做的好处是每个 Agent 的 prompt 可以高度专业化,不会因为要处理太多不同类型的任务而质量下降。

2. 对抗机制是质量的来源

不是简单地生成后过滤,而是让假说之间进行对抗性辩论。这和 GAN 的思路类似:用对抗来逼出更高质量的输出。单纯靠一个模型自己打分,容易形成自我偏见。让两个方案互相攻击,能暴露出更深层的问题。

3. 用进化替代穷举

假说空间是无限的,不可能遍历。Co-Scientist 的做法是先广撒网(Generation),然后用锦标赛淘汰弱者,再用 Evolution 在强者基础上产生新变体。这是经典的进化算法思路,但用 LLM 做了变异和交叉操作。

4. 验证的计算量远大于生成

论文里提到,系统「大部分算力花在验证假说上」。生成一个假说只需要一次 LLM 调用,但验证它可能需要搜索文献数据库(ChEMBL、UniProt)、调用 AlphaFold 预测蛋白结构、做逻辑一致性检查。这对所有做 Agent 系统的人都是一个提醒:别只关注生成能力,验证能力才是决定系统可靠性的关键。

局限和开放问题

当然这个系统也有明显的限制。

它目前只能输出假说,不能做实验。最终还是需要人类科学家去实验室验证。如果假说全错了,人去验证就是浪费时间和经费。论文报告了成功案例,但没说失败率是多少。

另外,系统需要接入大量外部数据源(ChEMBL、UniProt、AlphaFold、网页搜索)才能工作。如果你的研究领域的知识主要以非结构化的形式存在(比如临床经验、未发表的实验数据),它可能帮不了太多。

还有一个更根本的问题:AI 提出的假说,研究者会不会产生锚定效应?就是说,如果 AI 给了一个方向,人类是不是更倾向于去验证那个方向,而忽略了其他可能性?这个问题目前没有答案。

从工具到队友

回到这个系列的主题。前几篇我们讨论了 Agent 的定义、协议、进化、失控。Co-Scientist 提供了另一个视角:当多个 Agent 被正确地组织起来,用对抗和进化机制协作,它们能做出单个 Agent(或单个人类)做不到的事。

Gary Peltz 的评价可能最准确:「它感觉像一个读完了所有生物医学文献的合作者,而且有足够的推理能力找到我们正在遗漏的关联。」

不是替代科学家,是给科学家装了一个涡轮增压器。


这是 AI Agent 系列的第五篇。前几篇: