[谷歌] 震惊,谷歌AI一夜连破9道世纪难题

项目地址:
https://github.com/google-deepmind/alphaproof-nexus-results
简单Agent也能解全部9题?!最出人意料的结论,不是完整版Agent D有多强,而是——
最简单的Agent A,也能解决全部9道问题。
Agent A没有进化算法,没有AlphaProof,只有多个独立的LLM子智能体和Lean编译器的反馈循环。
根据DeepMind团队的对比分析,它在大多数问题上,Agent A和Agent B(加了AlphaProof的版本)的表现在误差范围内几乎相同。
相比之下,Agent D的优势主要体现在最困难的问题上(比如#125和#138),能以2到5倍的成本优势完成证明。

对此,DeepMind将基础Agent的成功归因于两个因素:LLM自身能力的飙升,以及编译器反馈在锚定LLM推理方面的强大作用。
也就是说,随着基础模型越来越强,复杂的系统工程可能逐渐让位于简单的智能体循环。
今天需要进化算法和AlphaProof协同作战才能高效解决的问题,明天可能一个朴素的LLM+编译器循环就够了。

具体到成本,最便宜的一道题(#741(ii))中位成本仅5-7美元,最贵的(#152)也不过200-400美元。
但前提是用对了模型——单独运行AlphaProof或使用较小模型(Gemini 3.0 Flash等),9道题一道都解不出来。

[加西网正招聘多名全职sales 待遇优]
| 分享: |
| 注: | 在此页阅读全文 |
| 延伸阅读 | 更多... |
推荐: