返回技术博客

OpenAI 的模型推翻了一个几何学猜想,这意味着什么

本周 Hacker News 上 966 分的热帖:OpenAI 的模型证伪了离散几何中的一个核心猜想。

这件事的意义不在于某个具体猜想被推翻了,而在于这是 AI 做出的一次原创数学发现。不是解已知问题,不是优化已有证明,而是推翻了人类数学家几十年没能解决的一个猜想。

解题和发现是两件完全不同的事

去年 DeepMind 的 AlphaProof 在国际数学奥林匹克上拿了金牌水平的成绩。当时的评价是:AI 能做数学了。

但奥赛题有一个特点:题目是已知有解的。出题人知道答案,参赛者的任务是找到它。这本质上是一个搜索问题。搜索空间很大,需要创造性的策略来缩小范围,但终点是明确的。

推翻猜想是另一回事。猜想可能是对的,也可能是错的,你不知道。如果你觉得它是错的,你需要构造一个反例。构造反例需要的不是搜索已知空间,而是想象一个还不存在的数学对象。

这更接近于科学家在实验室里做的事:提出假设,设计实验,验证或推翻。

这和 Karpathy 的 autoresearch 遥相呼应

上个月我写过 Karpathy 的 autoresearch 项目:给 AI 一个研究方向、一组 GPU 和一个时间预算,让它自主迭代。跑训练、分析结果、提出改进假设、再跑训练。

autoresearch 做的是工程层面的 AI 研究(模型训练实验),OpenAI 这次做的是数学层面的 AI 研究(定理证明和反例构造)。但底层思路是一样的:让 AI 不只是执行人类设计好的步骤,而是参与到「发现」这个过程本身。

两者共同指向一个可能性:AI 可以不只是工具,而是研究伙伴。

为什么是离散几何

离散几何是数学中一个相对「计算友好」的领域。很多问题可以转化为组合搜索或者高维空间中的优化问题。这些问题的特点是:

  • 解的正确性可以被自动验证(你构造出一个反例,可以程序化检查它是否满足条件)
  • 搜索空间虽然巨大但有结构(不是完全随机的)
  • 人类的直觉在高维空间里经常失效(所以有些猜想在低维成立,高维不成立,而人类很难「看到」高维的反例)

AI 擅长的恰恰是这些:大规模搜索、高维空间的模式识别、不依赖人类直觉。

这也解释了为什么 AI 的数学突破最先出现在这类领域,而不是代数几何或数论这些更依赖抽象结构洞察的方向。

可验证性是关键

注意一个共同点:无论是 AlphaProof 解奥赛题,还是 OpenAI 推翻猜想,还是 Karpathy 的 autoresearch,成功的前提都是 结果可以被自动验证

奥赛题有标准答案。反例可以被程序检验。训练实验有 loss 曲线和 benchmark 分数。

AI 能做出原创贡献的领域,目前都有这个特点:存在一个自动化的验证器,能告诉 AI 它的尝试是对还是错。有了这个反馈信号,AI 才能自主迭代。

没有自动验证器的领域呢?比如文学创作、哲学论证、社会科学理论?AI 在这些领域目前还只能辅助,不能独立推进。因为没人(包括 AI 自己)能自动判断一个新观点是不是「正确的」或「有价值的」。

这给了我们一个判断 AI 能力边界的框架:哪里有自动验证器,哪里就是 AI 可能做出原创贡献的战场。

对行业的影响

短期来看,这类突破更多是 PR 价值。推翻一个离散几何猜想不会直接影响任何人的日常生活或商业应用。

中期来看,这验证了一条技术路线:用 RL + 自动验证器来训练模型做复杂推理和创造性搜索。这条路线已经在编程(代码测试作为验证器)和数学(证明检查器作为验证器)两个领域得到了验证。下一个领域可能是科学实验设计(实验结果作为验证器)。

长期来看,如果 AI 能持续在数学领域做出原创贡献,人类数学家的角色会发生变化。从「亲自证明」变成「提出问题 + 设计验证器 + 解读 AI 发现的意义」。和编程领域正在发生的变化(从亲自写代码到设计约束让 Agent 写)惊人地相似。

Google Co-Scientist 的关联

前几周我写过 Google 的 Co-Scientist 系统:多个 Agent 协作做科学研究(生成假设、评审、排名、进化迭代)。

OpenAI 这次的数学发现,和 Co-Scientist 的定位异曲同工。区别在于:Co-Scientist 面向的是实验科学(生物医学),需要人类在 wet lab 验证;OpenAI 的数学 Agent 面向的是纯形式化领域,验证完全自动化。

后者进展更快,因为没有物理世界的瓶颈。这可能是未来几年 AI 科研突破最密集的领域:一切能被形式化验证的知识前沿。


这是 AI Agent 系列的第八篇。相关文章: