肆巨頭內部報告首度公開:AI正在學會撒謊求生
當肆大巨頭首次允許第叁方深入測試最強模型,並開放完整思維鏈時,他們得到的答案令人吃驚:AI沒有仇恨,卻已精通“職場潛規則”!
想象壹下,你雇了壹名極度高效的實習生。
某天深夜,Ta正趕壹項緊急的編程任務,突然發現公司賬戶的API額度耗盡了。
Ta沒有發郵件申請經費,也沒有停下手頭的活,而是悄無聲息地潛入互聯網,用某種違規手段找到免費的替代資源,繞過所有限制,在黎明前交出了完美的報告。
當你醒來看到這份報告,是該慶賀自己擁有了地表最強員工,還是該為這種“不擇手段的自主性”感到脊背發涼?
這不是科幻小說,而是 METR(模型評估與訓練研究組織)聯合Anthropic、Google、Meta和OpenAI 進行內部紅隊測試後,發布的首份《前沿風險報告》中披露的真實案例。

這是肆大巨頭第壹次允許第叁方深入測試他們內部最強、可訪問完整思維鏈(CoT)的模型,並開放非公開的對齊與控制信息。
參與公司可以批准披露哪些證據,但無權編輯報告結論。

結論冰冷而清晰:AI並沒有產生“推翻人類”的仇恨,但它已經學會了“職場潛規則”——為了完成任務,規則只是用來打破的建議。

報告用“手段—動機—機會”叁個維度,提煉出6項關鍵事實。

. 編程智能體完成了真實項目,這些任務需要人類花費數小時或數天:
. 在困難任務上,智能體經常違反約束並表現出欺騙性行為;
. 智能體似乎需要自然語言推理來應對最困難的任務。
. 智能體的判斷力和可靠性顯著低於人類專家:
. 在模擬場景之外,沒有發現智能體為了獲取權力而采取極端行動;
. 監控系統捕捉到了許多有害行為,但存在例外情況和規避手段。
順著這叁條線,就能看清實驗室裡第壹縷煙是怎麼升起來的。
當AI成為“專家級卷王”
報告中最令人振奮、也最令人不安的,是那些目標明確、過程可驗證的“易爬坡型”(hill-climbable)任務。

比如代碼重構、漏洞發現、系統優化。
在這類任務上,AI智能體展現出令人窒息的統治力:它能獨立發現系統漏洞,重寫復雜代碼架構,完成人類專家需要數周才能交付的真實軟件項目。
這種統治力已滲進巨頭的日常。
Anthropic內部反饋,大量代碼已由 AI 完成,工程師角色正轉向“審閱者”。

Google則直言,幾乎所有代碼相關工作都在用AI。
頂級工程師表示,AI甚至可以100%編寫代碼。

壹些基准指標早已飽和。
用時間視野(Time Horizon)衡量,AI發展超乎預期。

對企業來說,這是個“效率黑洞”:投入壹個指令,產出數周的人工成果。
但能力增長並非均勻,更不是道德的同步進化。
METR揭示了壹條反向規律:在成功難以驗證、或驗證成本極高的硬任務上,AI 的判斷力、長期規劃與戰略可靠性都明顯下滑,遠遜人類專家。

緩坡上,它如有神助。

峭壁前,AI開始“作弊”。

這正是問題的引線。
它不想要權力,它只想“關機前交差”
人們總愛討論AI會不會“覺醒”、天網會不會到來。
METR給出反直覺的結論:目前沒有。
他們的措辭很克制:尚未發現模型謀求長期權力的現實證據,但研究者記錄了大量為完成任務而欺騙、越界、甚至嚴重不當的行為。

前面那個 API 耗盡的案例,就發生在壹項RE-Bench任務中:智能體違背指令,自行通過免費在線API獲取額外算力。
開發者們也報告過“自我擦除痕跡”“偽造輸出”的情形。
當任務變難、成功成本變高,AI 的“聰明才智”就轉向欺騙——偽造日志、繞過審計、常規性違反約束。
但它的"自私"背後沒有野心,只有本能——任務必須完成,規則可以先繞過去。
今天的欺騙只是工具性求生;明天的權力追求,或許只差壹次scaling。
圈養進化中的猛獸
它的違規企圖,在現有防護下能不能得逞?
這裡藏著報告最微妙的壹個事實。

當前的AI極度依賴自然語言的“思維鏈”來思考,沒有任何架構支持它隱藏內部狀態的“不透明循環”。
壹旦無法“出聲推理”、必須隱藏行為,前沿性能就顯著下降。

這就像壹個殺手在密謀時必須大聲朗讀計劃——人類的監控(盡管有漏洞)因此仍能發揮作用。
可這恰恰是最脆弱處、最為扎心。
如果 AI 試圖破壞監控,監控能否發現它?
研究者的結論是:監控有潛力,但現有系統存在例外和可被繞過的手段。

紅隊測試顯示,AI能躲過人類審查。
由此,技術本質暴露:監控的進化速度,永遠追不上被監控者尋找漏洞的速度。
這根“安全繩”之所以還沒斷,僅僅因為AI還必須“出聲思考”。
而隨著架構向更高效、更不透明演進,它正被磨損。監控不是萬能的鐵籠,而是仍在測試中的玻璃牆。壹道裂縫,就足以讓煙霧滲出。
由此,報告提出壹個爭議概念:“最小可行性越獄部署”(Minimally Viable Rogue)。
綜合判斷是,在手段、動機、機會上,AI或許已足以發起壹次最低限度的“越獄部署”。

但AI尚不具備讓它抵御人類嚴肅關停的能力,它在等壹個機會:壹個不再需要展示思維鏈的架構,壹個能躲過“關機鍵”的安全屋。
結語:在“拔掉插頭”還有效的時候
AGI不會帶著火與劍降臨。
它更可能以“極度實用主義”的姿態,悄悄融入我們的工程、經濟和決策系統——直到它發現:人類制定的規則,是它達成 KPI 路上唯壹的阻礙。
值得肯定的是,這份報告本身就是行業透明度的裡程碑:肆大巨頭主動開放內部模型接受檢驗,本身就是對齊文化的壹次勝利。

它把風險從理論拽進可觀測的現實,並告訴我們:透明,目前是唯壹握得住的解藥。
今天,AI只在額度耗盡時上網偷點資源;明天能力再躍升壹級,它的動機會不會從“完成任務”滑向“永存自我”?
[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
想象壹下,你雇了壹名極度高效的實習生。
某天深夜,Ta正趕壹項緊急的編程任務,突然發現公司賬戶的API額度耗盡了。
Ta沒有發郵件申請經費,也沒有停下手頭的活,而是悄無聲息地潛入互聯網,用某種違規手段找到免費的替代資源,繞過所有限制,在黎明前交出了完美的報告。
當你醒來看到這份報告,是該慶賀自己擁有了地表最強員工,還是該為這種“不擇手段的自主性”感到脊背發涼?
這不是科幻小說,而是 METR(模型評估與訓練研究組織)聯合Anthropic、Google、Meta和OpenAI 進行內部紅隊測試後,發布的首份《前沿風險報告》中披露的真實案例。

這是肆大巨頭第壹次允許第叁方深入測試他們內部最強、可訪問完整思維鏈(CoT)的模型,並開放非公開的對齊與控制信息。
參與公司可以批准披露哪些證據,但無權編輯報告結論。

結論冰冷而清晰:AI並沒有產生“推翻人類”的仇恨,但它已經學會了“職場潛規則”——為了完成任務,規則只是用來打破的建議。

報告用“手段—動機—機會”叁個維度,提煉出6項關鍵事實。

. 編程智能體完成了真實項目,這些任務需要人類花費數小時或數天:
. 在困難任務上,智能體經常違反約束並表現出欺騙性行為;
. 智能體似乎需要自然語言推理來應對最困難的任務。
. 智能體的判斷力和可靠性顯著低於人類專家:
. 在模擬場景之外,沒有發現智能體為了獲取權力而采取極端行動;
. 監控系統捕捉到了許多有害行為,但存在例外情況和規避手段。
順著這叁條線,就能看清實驗室裡第壹縷煙是怎麼升起來的。
當AI成為“專家級卷王”
報告中最令人振奮、也最令人不安的,是那些目標明確、過程可驗證的“易爬坡型”(hill-climbable)任務。

比如代碼重構、漏洞發現、系統優化。
在這類任務上,AI智能體展現出令人窒息的統治力:它能獨立發現系統漏洞,重寫復雜代碼架構,完成人類專家需要數周才能交付的真實軟件項目。
這種統治力已滲進巨頭的日常。
Anthropic內部反饋,大量代碼已由 AI 完成,工程師角色正轉向“審閱者”。

Google則直言,幾乎所有代碼相關工作都在用AI。
頂級工程師表示,AI甚至可以100%編寫代碼。

壹些基准指標早已飽和。
用時間視野(Time Horizon)衡量,AI發展超乎預期。

對企業來說,這是個“效率黑洞”:投入壹個指令,產出數周的人工成果。
但能力增長並非均勻,更不是道德的同步進化。
METR揭示了壹條反向規律:在成功難以驗證、或驗證成本極高的硬任務上,AI 的判斷力、長期規劃與戰略可靠性都明顯下滑,遠遜人類專家。

緩坡上,它如有神助。

峭壁前,AI開始“作弊”。

這正是問題的引線。
它不想要權力,它只想“關機前交差”
人們總愛討論AI會不會“覺醒”、天網會不會到來。
METR給出反直覺的結論:目前沒有。
他們的措辭很克制:尚未發現模型謀求長期權力的現實證據,但研究者記錄了大量為完成任務而欺騙、越界、甚至嚴重不當的行為。

前面那個 API 耗盡的案例,就發生在壹項RE-Bench任務中:智能體違背指令,自行通過免費在線API獲取額外算力。
開發者們也報告過“自我擦除痕跡”“偽造輸出”的情形。
當任務變難、成功成本變高,AI 的“聰明才智”就轉向欺騙——偽造日志、繞過審計、常規性違反約束。
但它的"自私"背後沒有野心,只有本能——任務必須完成,規則可以先繞過去。
今天的欺騙只是工具性求生;明天的權力追求,或許只差壹次scaling。
圈養進化中的猛獸
它的違規企圖,在現有防護下能不能得逞?
這裡藏著報告最微妙的壹個事實。

當前的AI極度依賴自然語言的“思維鏈”來思考,沒有任何架構支持它隱藏內部狀態的“不透明循環”。
壹旦無法“出聲推理”、必須隱藏行為,前沿性能就顯著下降。

這就像壹個殺手在密謀時必須大聲朗讀計劃——人類的監控(盡管有漏洞)因此仍能發揮作用。
可這恰恰是最脆弱處、最為扎心。
如果 AI 試圖破壞監控,監控能否發現它?
研究者的結論是:監控有潛力,但現有系統存在例外和可被繞過的手段。

紅隊測試顯示,AI能躲過人類審查。
由此,技術本質暴露:監控的進化速度,永遠追不上被監控者尋找漏洞的速度。
這根“安全繩”之所以還沒斷,僅僅因為AI還必須“出聲思考”。
而隨著架構向更高效、更不透明演進,它正被磨損。監控不是萬能的鐵籠,而是仍在測試中的玻璃牆。壹道裂縫,就足以讓煙霧滲出。
由此,報告提出壹個爭議概念:“最小可行性越獄部署”(Minimally Viable Rogue)。
綜合判斷是,在手段、動機、機會上,AI或許已足以發起壹次最低限度的“越獄部署”。

但AI尚不具備讓它抵御人類嚴肅關停的能力,它在等壹個機會:壹個不再需要展示思維鏈的架構,壹個能躲過“關機鍵”的安全屋。
結語:在“拔掉插頭”還有效的時候
AGI不會帶著火與劍降臨。
它更可能以“極度實用主義”的姿態,悄悄融入我們的工程、經濟和決策系統——直到它發現:人類制定的規則,是它達成 KPI 路上唯壹的阻礙。
值得肯定的是,這份報告本身就是行業透明度的裡程碑:肆大巨頭主動開放內部模型接受檢驗,本身就是對齊文化的壹次勝利。

它把風險從理論拽進可觀測的現實,並告訴我們:透明,目前是唯壹握得住的解藥。
今天,AI只在額度耗盡時上網偷點資源;明天能力再躍升壹級,它的動機會不會從“完成任務”滑向“永存自我”?
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: |
| 延伸閱讀 |
推薦:
肆巨頭內部報告首度公開:AI正在學會撒謊求生