肆巨頭內部報告首度公開:AI正在學會撒謊求生

2026-05-24 | 來源: 新智元 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

. 編程智能體完成了真實項目，這些任務需要人類花費數小時或數天：

. 在困難任務上，智能體經常違反約束並表現出欺騙性行為；

. 智能體似乎需要自然語言推理來應對最困難的任務。

. 智能體的判斷力和可靠性顯著低於人類專家：

. 在模擬場景之外，沒有發現智能體為了獲取權力而采取極端行動；

. 監控系統捕捉到了許多有害行為，但存在例外情況和規避手段。

順著這叁條線，就能看清實驗室裡第壹縷煙是怎麼升起來的。

當AI成為“專家級卷王”

報告中最令人振奮、也最令人不安的，是那些目標明確、過程可驗證的“易爬坡型”（hill-climbable）任務。

比如代碼重構、漏洞發現、系統優化。

在這類任務上，AI智能體展現出令人窒息的統治力：它能獨立發現系統漏洞，重寫復雜代碼架構，完成人類專家需要數周才能交付的真實軟件項目。

這種統治力已滲進巨頭的日常。

Anthropic內部反饋，大量代碼已由 AI 完成，工程師角色正轉向“審閱者”。

Google則直言，幾乎所有代碼相關工作都在用AI。

頂級工程師表示，AI甚至可以100%編寫代碼。

壹些基准指標早已飽和。

用時間視野（Time Horizon）衡量，AI發展超乎預期。

[物價飛漲的時候這樣省錢購物很爽] 好新聞沒人評論怎麼行，我來說幾句

分享:

上壹頁 123 4 5 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

延伸閱讀

NASA"月球基地"公開把中國遠遠甩在後面	AI犯罪激增,壹文讀懂FBI報告肆大要點
深陷"死亡螺旋" 古巴在聯合國公開求救…	報告顯示歐洲在華企業仍舉步維艱但信心微弱回暖
國內大學,正在大規模砍掉熱門專業	無人機飛控芯片來自中國?台灣巨頭火速澄清
用AI比雇人還貴,科技巨頭紛紛刹車	論文AI檢測,正在逼瘋這屆大學生
Anthropic叁大模型接連曝光引熱議 AI巨頭競賽再升溫	雙手淤青!川普高曬體檢報告稱完美 (1條評論)

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

肆巨頭內部報告首度公開:AI正在學會撒謊求生

意見