[谷歌] 震驚,谷歌AI壹夜連破9道世紀難題

項目地址:
https://github.com/google-deepmind/alphaproof-nexus-results
簡單Agent也能解全部9題?!最出人意料的結論,不是完整版Agent D有多強,而是——
最簡單的Agent A,也能解決全部9道問題。
Agent A沒有進化算法,沒有AlphaProof,只有多個獨立的LLM子智能體和Lean編譯器的反饋循環。
根據DeepMind團隊的對比分析,它在大多數問題上,Agent A和Agent B(加了AlphaProof的版本)的表現在誤差范圍內幾乎相同。
相比之下,Agent D的優勢主要體現在最困難的問題上(比如#125和#138),能以2到5倍的成本優勢完成證明。

對此,DeepMind將基礎Agent的成功歸因於兩個因素:LLM自身能力的飆升,以及編譯器反饋在錨定LLM推理方面的強大作用。
也就是說,隨著基礎模型越來越強,復雜的系統工程可能逐漸讓位於簡單的智能體循環。
今天需要進化算法和AlphaProof協同作戰才能高效解決的問題,明天可能壹個樸素的LLM+編譯器循環就夠了。

具體到成本,最便宜的壹道題(#741(ii))中位成本僅5-7美元,最貴的(#152)也不過200-400美元。
但前提是用對了模型——單獨運行AlphaProof或使用較小模型(Gemini 3.0 Flash等),9道題壹道都解不出來。

[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 | 更多... |
推薦: