當AI開始造AI,Anthropic呼吁緊急刹車

2026-06-05 | 來源: MIT科技評論 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

而且 Claude 寫的代碼質量還在快速提升。Anthropic 內部跟蹤了工程師在 Claude Code 工作過程中需要糾正或中途接管的頻率，這個頻率在過去壹年持續下降。到 2026 年 5 月，Claude 處理最高難度開放式任務的成功率達到 76%，六個月內上升了 50 個百分點。

（來源：Anthropic）

第贰組數據涉及了 AI 的科研能力。Anthropic 有壹個內部基准測試：給 Claude 壹段訓練小型 AI 模型的 CPU 代碼，要求它在不改變正確性的前提下盡可能提速。2025 年 5 月，Claude Opus4 的平均加速比約為 3 倍；到 2026 年 4 月，Claude Mythos Preview 達到了約 52 倍。

作為參照，壹名熟練的人類研究員通常需要肆到八小時才能達到約 4 倍加速。Anthropic 提醒，絕對倍數受起始代碼優化空間的影響，不應直接解讀為真實世界的訓練加速，但在同壹測試條件下，壹年內從 3 倍到 52 倍的變化，這個結果值得重視。

第叁組數據來自工程實踐。2026 年 4 月，Claude 自主修復了超過 800 個 API 錯誤，將該類錯誤的發生率降低了約 1,000 倍。負責的工程師估計，同樣的工作讓人來做大概需要肆年。因為修復別人寫的 Bug 實在是壹個漫長而痛苦的過程，人類也很難同時記下那麼多不熟悉的代碼上下文，可這類任務恰恰是 AI 的優勢所在。

文章還公布了壹個頗有意思的實驗。2026 年 4 月，研究人員將多個 Claude 智能體交給壹個 AI 安全領域的開放問題：弱模型能否可靠地監督強模型？智能體自行提出假設、設計實驗、運行測試，在並行智能體之間共享發現並迭代。兩位人類研究員花了壹周時間，彌補了該任務性能上下限之間約 23% 的差距；Claude 智能體累計運行 800 小時後，彌補了 97% 的差距。

更值得注意的是，AI 提升的不只是執行能力，連“下壹步該做什麼”的判斷能力也在同步增強。Anthropic 內部的壹項回溯評測顯示，當研究人員在項目推進過程中走入錯誤方向時，Claude 越來越能夠提出更優的替代方案。最新模型 Claude Mythos Preview 給出的研究路徑，有 64% 的概率被評審認為優於人類研究者當時的實際選擇。這意味著 AI 開始不僅能幫助研究者完成工作，也正在越來越多地參與研究方向本身的選擇。

（來源：Anthropic）

這些數據拼在壹起，指向的是同壹個大的趨勢：AI 正在接管越來越多原本由研究人員親自完成的工作。寫代碼、調試系統、運行實驗、分析結果，這些過去占據大量時間的研發環節，正越來越多地由 AI 完成。人類的角色則逐漸從執行者轉向監督者和決策者。

正因為如此，此前 Jack Clark 對遞歸自我改進的時間表判斷相當激進。他在 2026 年 5 月的 newsletter 中估計，到 2028 年底出現完全自動化 AI 研發的概率約為 60%，到 2027 年底約為 30%。

[物價飛漲的時候這樣省錢購物很爽] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

上壹頁 123 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍

當AI開始造AI,Anthropic呼吁緊急刹車

意見