IM体育官方网站首页 留给东谈主类数学家的赏格未几了!谷歌DeepMind连气儿解决9谈埃尔德什问题

AI 进攻数学界的速率太快了。
OpenAI 前脚刚用里面模子冲突埃尔德什的 80 年单元距离问题,谷歌 DeepMind 后脚就解决一个同样卡了东谈主类56 年的埃尔德什数学勤恳——
最新发布AlphaProof Nexus,一套由 Gemini 驱动的智能体框架,一脱手即是9 个埃尔德什通达问题

除了这 9 谈,它还顺遂讲明了 OEIS 整数序列百科里的 44 个揣摸、督察了一起抛弃 15 年的代数几何勤恳、还改造了凸优化范围里一个沿用已久的表面领域。
推理资本呢?每谈题几百好意思元,整套讲明代码也实足开源放在了 GitHub 上。

这篇论文共有 20 位作家,其中的Aja Huang,亦然 2016 年AlphaGo的中枢推敲员。
开云kaiyun体育中国APP下载56 年没东谈主作念出来的题,AI 给了什么谜底
AlphaProof Nexus 解决的这几谈题,咱挑三谈最挑升旨风趣的说说。
Erd ő s ,1970 年淡薄,悬置 56 年
这谈题问的是:你能不行找出一个无限大的整数合资,中意两个听起来很别扭的条目:
第一,即兴从中挑三个不同的数字 a、b、c,a 长久不行整除 b 加 c 的和。
第二,这组数不行太阑珊,在当然数里要保合手一定的密度。
简便融合即是,这群数字之间,既不行一个数整除另一个数,也不行一个数整除另外两个数的和,同期数字还要分散得相对密集,不行只挑寥寥几个数无计可施。
从 1970 年运转,就没东谈主能给出这个合资的完满构造,各式局部阐述有,但恒久拼不成一个合座解。

AI 的解法是用中国剩余定理把大问题拆成许多个寥寂的区块,每个区块里面用三项等差数列的脱色集来中意不停,然后把统统区块拼回一个完满的无限集。

Erd ő s ,1996 年淡薄,30 年莫得定论
这谈题听着就更奇怪了。
想象两个数字合资:第一个合资里全是"在三进制下只由数字 0 和 1 构成的整数",第二个合资里全是"在四进制下只由数字 0 和 1 构成的整数"。把这两个合资里所独特字两两相加,获得一个新合资。
问:这个新合资里的数字在当然数中出现的频率(数学上叫下密度)是不是正的?
直观上你可能会合计,两种合资包含的数字原本就不算许多,加起来应该也挺荒芜的。
但荒芜到什么进度?是透彻稀到密度归零,如故几许保合手少许正密度?
这中间的离别超越巧妙,1996 年淡薄后一直没定论。
AI 的谜底是:密度为零。

讲明念念路是 log ₄除以 log ₃是乖谬数。这意味着 3 的幂次和 4 的幂次不错以即兴精度相互面对。
专揽这少许,AI 构造了一个归纳性荒芜化论证:赓续找到两个实在对都的圭臬,让密度以 0.99 的比率一步步衰减,直到透彻归零。
一个纯数论的性质,解决了一个组合几何的问题。
Erd ő s ,1992 年淡薄,卡了东谈主类 34 年。
这是个平面几何题,AI 讲明了存在这样一个无限彭胀的平面点集:
你从中即兴挑出有限个点,总能发现其中大部分点是不共线的——
浮松截一段,看起来都挺深广,但当你试图把这个无限合资拆分红有限个"绝对莫得任何三点共线"的子集时,办不到。
一个合资的每个有限局部都深广,但合座果断得不可拆分。这种全局与局部的张力,是组合几何里最难的那一类问题。
AI 把完全图的每条边映射到平面上一个点,用二次多项式编码坐标,再拉上无限 Ramsey 定理完成讲明,IM体育官方网站首页把一个几何问题翻译成了图论和逻辑的讲话。
除了这三谈,还有六谈分袂在整除集构造、范德瓦尔登数谬误、西顿集孤单点、合资拆分密度等范围。

同期,AlphaProof Nexus 还在 OEIS 整数序列百科里讲明了 44 个通达揣摸,在代数几何那里解决了一起希尔伯特函数对数凹性的 15 年悬案,凸优化那里改造了一个锚定梯度下落法的表面领域。

菲尔兹奖得主陶哲轩也曾辅导过,AI 目下解决埃尔德什问题的实质告捷率简陋在 1-2%,此次谷歌的系统挑战了 353 谈题,解开 9 谈,比例刚好对上了。
用几百好意思元算力换一起 56 年勤恳
AlphaProof Nexus 的架构中枢用一句话就能阐发晰,Gemini 3.1 Pro 生成 Lean 讲话讲明门径→ Lean 编译器逐行搜检→报错平直反应给模子→模子字据报错修改→再搜检→轮回到全部通过。

好家伙,这有点像平时写代码,只不外目下 Debug 的是数学定理……

在这套框架里,DeepMind 遐想了四个 Agent。
最简便的 Agent A是同期启动多个寥寂子 Agent,先靠 Gemini 3.1 Pro 梳融合题念念路,起初编写讲明代码。
写完坐窝交给编译器核验,一朝报错,乌有信息就会传回模子,让它赓续修改、重试,直到通关。
全程莫得极端援手器具,纯靠写代码 + 查错轮回。

Agent B 多了一样东西,AlphaProof。
AlphaProof 是 DeepMind 之前专门为奥数级别题目查考过的强化学习讲明器具。
当 Agent A 格式在某个小门径上反复卡住、编译器反复报错也修不外来时,Agent B 不错调用 AlphaProof 作念一次强化学习驱动的树搜索,专门袭击这个局部难点。
Agent C 引入了进化算法的念念路。
前边两种 Agent 的子 Agent 都是各自寥寂责任的,互不雷同。
Agent C 是统统子 Agent 分享一个讲明草图种群,每一个子模块都会产出不同的讲明草稿。
然后由另一个模子从合感性、表现度、新颖性三个维度给每一份草稿打分,用 Elo 评分系统排行。
高分草稿会相互组合,养殖出新解法,低分草稿平直淘汰,统统这个词种群在讲明空间里作念进化搜索。
Agent D 是全功能完全体,进化筛选念念路 + 专项器具攻克难点 + 大模子逻辑推理,三股力量在一个框架里协同,亦然此次批量破解勤恳的主力。

这样看下来,我以为最强的 Agent D 应该会碾压一切,Agent A 只当个对照组。
恶果没猜度论文里标明最简便的 Agent A,同样能解出全部 9 谈题。
莫得进化算法,莫得 AlphaProof,就一个 LLM 轮回加编译器反应的 Agent A,仅仅在勤恳上更用钱少许。

推敲团队把原因归为两个:
一是 Gemini 3.1 Pro 本人的智商照旧饱和强了;
二是 Lean 编译器的那层实打实的纠错反应,对 AI 的指挥作用,远比东谈主们意象的更大。
这个恶果大约也在预示着,改日跟着大模子智商合手续升级,复杂的多器具组合系统,可能不再是刚需,只用大模子 + 专科校验器具这套简便轮回,就能督察大普遍数学勤恳。
况且这套有遐想的上风也体目下资本上,单题仅需几百好意思元。
埃尔德什生前为这些勤恳开采了赏格,仅仅他不会猜度——
解开这些谜题的可能不是东谈主类忠良,而是算力。
论文地址:https://arxiv.org/abs/2605.22763v1
Github 地址:https://github.com/google-deepmind/alphaproof-nexus-results
参考勾搭:
[ 1 ] https://x.com/pushmeet/status/2058936037754224998
[ 2 ] https://the-decoder.com/google-deepminds-alphaproof-nexus-solves-decades-old-math-problems-for-a-few-hundred-dollars/
— 接待 AI 居品从业者共建 —
� �「AI 居品常识库」是量子位智库基于历久居品库跟踪和用户举止数据推出的飞书常识库,旨在成为 AI 行业从业者、投资者、推敲者的中枢信息要道与决策救济平台。
一键存眷 � � 点亮星标
科技前沿阐述逐日见IM体育官方网站首页