又是發布AI憲法又是抵制中國,這位AI大佬走火入魔了

2026-02-19 | 來源: k和他的AI同事 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

牆內自媒體K和他的AI同事文章：對內培養AI的好價值觀，對外阻止壞人獲取AI能力。

如果要用壹句話概括Anthropic的CEO Dario Amodei過去壹年在做的事情，大概就是這句。

他給自家模型Claude寫了壹份23000字的AI憲法，詳細規定了這個AI應該擁有什麼樣的價值觀、怎麼處理道德困境、甚至討論了它是否可能擁有意識。與此同時，他是硅谷最積極呼吁封鎖中國AI芯片供應的科技公司CEO，沒有之壹。這兩件事之間的關系，比大多數人以為的要緊密得多。

01

先說說AI憲法的事。

Anthropic從2022年開始就在用壹種叫Constitutional AI的方法來訓練Claude。早期版本的“憲法”很多內容直接是從聯合國人權宣言和蘋果的用戶協議裡摘出來的，都是“請選擇更支持生命、自由和人身安全的回答”之類的內容。但現在，Anthropic覺得這種“刻在石板上的戒律”對於現在的模型能力來說已經不夠用了，所以新版憲法中大量篇幅都在試圖解釋為什麼要這麼做。

Amanda Askell是這份文件的主要作者，她是壹個受過哲學訓練的人，在Anthropic專門負責塑造Claude的人格。

她用了壹個很有意思的比喻：想象你突然發現你六歲的孩子是個天才，你就不能糊弄他了，因為他能看穿你。

新憲法給Claude設定了肆個特質，按照優先級排列：

1. 廣泛安全（Broadly Safe）。不能破壞人類對AI的監督機制。這是最高優先級。

2. 廣泛合乎倫理（Broadly Ethical）。誠實，有好的價值觀，避免不當的有害行為。

3. 遵守Anthropic的指南。按照公司更具體的業務規范行事。

4. 提供幫助（Genuinely Helpful）。對使用者和開發者有用。

這個排序的含義是：如果這肆個目標發生沖突，安全排第壹，倫理排第贰，公司規范排第叁，幫助性排最後。壹向以安全著稱的Anthropic自然會把模型安全放在第壹位，並且考慮當前AI模型訓練還不完美，錯誤的價值觀或認知盲區都需要由人類來進行監管和糾錯，所以這似乎是壹種階段性合理的策略考量。

同時，Anthropic通過角色類比的方法來“培養”Claude的判斷力，而不是讓它機械地遵守規則，比如講到Claude和運營方的關系時，它說：運營方就像壹個從人力派遣公司請了壹個員工的企業老板。派遣公司（Anthropic）有自己的行為准則，這些准則優先於企業老板的指令。

所以Claude可以按照運營方的合理指示行事，就像員工會配合雇主的合理要求壹樣，但如果雇主要求做違法或嚴重傷害他人的事，員工應該拒絕。他們的思路是把Claude當成壹個有經驗的高級專業人士，除了少數確實不能逾越的紅線，比如不能協助制造生化武器用明確的“硬約束”來覆蓋以外，給它充分的背景知識和價值觀訓練，讓它自己去做判斷。

說完AI憲法的事，得先聊聊寫這份憲法的人是怎麼想的，因為理解了Dario的世界觀，後面他在中國問題上的壹系列sao操作才能看明白。

Dario屬於硅谷壹個特定的思想群體，粗略地說，可以叫“AI存在風險”（AI existential risk）陣營。這個群體的共同信念是：AI如果發展到足夠強大的水平，有可能對人類的存續構成威脅，而且他們認為即使這個風險的概率不高，它的後果足夠嚴重，以至於投入大量資源去防范是值得的。

有效利他主義口號：將良好意願轉化為更大的影響

這種思維方式在有效利他主義（EA，Effective Altruism）社區裡非常流行。Anthropic的很多早期員工和資助者都跟EA社區有密切關系。

正如他在《Machines of Loving Grace》開頭所說："我認為大多數人既低估了AI的上行空間，也低估了AI的風險。"

這句話濃縮了他的世界觀：同時是壹個極端樂觀主義者和極端謹慎主義者。他相信AI可以在5到10年內根除大多數疾病、大幅消除貧困、改變全球治理，但他也認為如果搞砸了，後果可能不堪設想。

在這個世界觀的指導下，Dario認為AI是有史以來最具變革性的技術，它將決定未來的權力格局。誰控制AI，就等於在回答壹個文明級別的問題。而他給出的答案是：必須是MZ國家，具體來說是以美國為首的西方聯盟，來控制AI的發展方向。

理解了這壹點，你就能看到AI憲法和他的對華政策其實是配套的兩個動作。憲法解決的是“我們自己的AI應該是什麼樣的”，對華政策解決的是“別人的AI不能威脅到我們的優勢”。

果然Dario先生是兩手抓，兩手都要硬。

02

那Dario在中國問題上具體做了什麼？

這裡有壹條很清晰的升級曲線。

最早可以追溯到2024年10月他發表的那篇《Machines of Loving Grace》。在這篇討論AI美好未來的長文裡，Dario提出了壹個叫"entente strategy"（協約戰略）的構想。

他的意思是，MZHU國家應該組成聯盟，通過控制芯片供應鏈、快速擴張算力來確保AI領先地位，同時阻止或延緩“對手”獲取關鍵資源。

他把這個策略分成“胡蘿卜加大棒”兩手：壹手用AI實現軍事優勢，另壹手把AI的好處分發給更廣泛的國家，換取它們支持m@ZHU聯盟的議程。最終目標是把“最糟糕的對手”逼到壹個位置，讓它們發現接受m@ZHU聯盟的條件比繼續對抗更劃算。

到了2025年1月，DeepSeek橫空出世的時候，Dario的態度變得更加具體和激進。他在壹篇題為《On DeepSeek and Export Controls》的文章裡做了幾件事。他說DeepSeek的工程師“聰明而好奇”，但他們“受制於壹個實施了xxx的XXX國家”。（沒辦法寫出來，大家自行搜索吧）

他描繪了兩個可能的世界：如果美國加強出口管控，M@zhu國家可以建立“持久的領先優勢”；如果不這麼做，中國可能會把更多資源投入AI的軍事應用，最終在全球舞台上占據主導地位。2025年3月，他在美國對外關系委員會的活動上更進壹步，公開說中國Spy“很可能正在竊取”美國AI公司價值上億美元的算法秘密，呼吁美國政府介入幫助防御。同年5月份，他在Axios AI+DC Summit上說：“把這些芯片賣給中國就是在抵押我們國家的未來。”

Anthropic作為公司也在采取行動。他們封禁了中國用戶對Claude的訪問，也導致了字節的AI Coding工具Trae被迫下架Claude模型。

Anthropic自己承認這會讓他們損失數億美元的潛在收入。他們還向白宮科技政策辦公室提交了強化出口管控的政策建議，明確支持叁級國家分類體系即盟友國家幾乎不受限，大多數國家有部分限制，“對手國家”受到嚴格管控。

這些行動產生了壹個直接後果：2025年9月，Anthropic的研究員姚順宇離職去了Google DeepMind（注：不是加入騰訊的姚順雨），而他公開表示Anthropic將中國定性為“對手國家”是他離開的主要原因之壹。這是有記錄以來第壹次有研究者因為AI公司的對華政策公開出走。

03

這算走火入魔嗎？

我覺得這個問題需要分兩個維度來看。從商業策略的角度看，Dario對安全的強調是壹張很管用的牌。在AI行業裡，OpenAI打的是“能力”牌，Google打的是“平台”牌，Meta打的是“開源”牌，而Anthropic打的是“安全"牌。這張牌在吸引特定類型的投資者、企業客戶和人才方面非常有效。比如政府和大型機構在選擇AI供應商時，“安全”是壹個重要的采購標准。

但從另壹個角度看Dario的安全敘事更像是壹種借口，這種借口在軍備競賽語境中很常見。Dario在憲法裡寫道：“我們認為AI可能是人類歷史上最具世界改變性和潛在危險的技術之壹，但我們還是在開發它。我們不認為這是矛盾的。如果我不造，別人也會造，那不如讓壹個關心安全的人來造。”

這個推理在邏輯上是成立的，但是它讓任何程度的冒險都變成了道德行為，只要你聲稱你比別人更關心安全。就像每個國家在軍備競賽中都說自己是為了防御而開發武器壹樣。

總體來說，我認為Dario有點走火入魔的點在於，他秉持著過於封閉和絕對的價值觀，而他所做的每壹件事又在這個邏輯體系裡是高度自洽的。

大概的邏輯就是AI將改變壹切→控制AI等於控制未來→必須確保好人先擁有它→對內培養AI的好價值觀→對外阻止壞人獲取AI能力。

而太過自洽的敘事，往往意味著它已經關閉了自我修正的通道。

當你深信AI是人類文明的決勝籌碼、深信M@zhu國家必須贏得這場競賽、深信你的公司正好處於做這件事的最佳位置時，這叁重信念疊加在壹起，很容易讓你把商業利益、國家利益和人類利益混為壹談，然後以救世主的姿態去做壹些後果很難預料的事情，這是我最擔心的。

而且，我確實觀察到壹種趨勢：他的安全敘事在過去兩年裡變得越來越“宏大”。

從早期比較謙虛的“我們要做安全研究”（也是他離開OpenAI的主要原因），到現在寫壹份23000字的AI憲法、討論AI是否可能有意識、提出AI可能在幾年內達到諾貝爾獎得主水平，AI能夠治愈癌症拯救人類，整個敘事的尺度在膨脹。很難想，下壹步他還能做出什麼來。

這種膨脹到底是因為他看到了更多內部信息所以更有底氣了，還是因為敘事本身需要不斷升級來維持關注度和融資能力，那我就不知道了。

[物價飛漲的時候這樣省錢購物很爽] 無評論不新聞，發表壹下您的意見吧

分享:

注：

新聞來源於其它媒體，內容不代表本站立場！

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

專家專欄

工具

當前會員

又是發布AI憲法又是抵制中國,這位AI大佬走火入魔了

意見