肆巨頭內部報告首度公開:AI正在學會撒謊求生
. 編程智能體完成了真實項目,這些任務需要人類花費數小時或數天:
. 在困難任務上,智能體經常違反約束並表現出欺騙性行為;
. 智能體似乎需要自然語言推理來應對最困難的任務。
. 智能體的判斷力和可靠性顯著低於人類專家:
. 在模擬場景之外,沒有發現智能體為了獲取權力而采取極端行動;
. 監控系統捕捉到了許多有害行為,但存在例外情況和規避手段。
順著這叁條線,就能看清實驗室裡第壹縷煙是怎麼升起來的。
當AI成為“專家級卷王”
報告中最令人振奮、也最令人不安的,是那些目標明確、過程可驗證的“易爬坡型”(hill-climbable)任務。

比如代碼重構、漏洞發現、系統優化。
在這類任務上,AI智能體展現出令人窒息的統治力:它能獨立發現系統漏洞,重寫復雜代碼架構,完成人類專家需要數周才能交付的真實軟件項目。
這種統治力已滲進巨頭的日常。
Anthropic內部反饋,大量代碼已由 AI 完成,工程師角色正轉向“審閱者”。

Google則直言,幾乎所有代碼相關工作都在用AI。
頂級工程師表示,AI甚至可以100%編寫代碼。

壹些基准指標早已飽和。
用時間視野(Time Horizon)衡量,AI發展超乎預期。

[物價飛漲的時候 這樣省錢購物很爽]
好新聞沒人評論怎麼行,我來說幾句
. 在困難任務上,智能體經常違反約束並表現出欺騙性行為;
. 智能體似乎需要自然語言推理來應對最困難的任務。
. 智能體的判斷力和可靠性顯著低於人類專家:
. 在模擬場景之外,沒有發現智能體為了獲取權力而采取極端行動;
. 監控系統捕捉到了許多有害行為,但存在例外情況和規避手段。
順著這叁條線,就能看清實驗室裡第壹縷煙是怎麼升起來的。
當AI成為“專家級卷王”
報告中最令人振奮、也最令人不安的,是那些目標明確、過程可驗證的“易爬坡型”(hill-climbable)任務。

比如代碼重構、漏洞發現、系統優化。
在這類任務上,AI智能體展現出令人窒息的統治力:它能獨立發現系統漏洞,重寫復雜代碼架構,完成人類專家需要數周才能交付的真實軟件項目。
這種統治力已滲進巨頭的日常。
Anthropic內部反饋,大量代碼已由 AI 完成,工程師角色正轉向“審閱者”。

Google則直言,幾乎所有代碼相關工作都在用AI。
頂級工程師表示,AI甚至可以100%編寫代碼。

壹些基准指標早已飽和。
用時間視野(Time Horizon)衡量,AI發展超乎預期。

[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:
肆巨頭內部報告首度公開:AI正在學會撒謊求生