為了研究AI,科學家像解剖外星人壹樣拆解大模型

想象壹下,在舊金山的雙子峰俯瞰整座城市。如果把整座城市的每壹條街道、每壹個公園、每壹塊地磚都鋪滿寫滿數字的紙張,你才能勉強感受到壹個大語言模型的規模。Will Douglas Heaven在文章中指出,壹個擁有2000億參數的模型,比如2024年發布的GPT-4o,如果用14號字體打印出來,其紙張足以覆蓋46平方英裡的土地,這大約就是舊金山的面積。而目前最大的模型,甚至能覆蓋整個洛杉磯


我們正與這些龐然大物共存,但令人不安的是,包括它們的創造者在內,沒人能完全理解這些模型是如何運作的。開放人工智能(OpenAI)的研究員Dan Mossing坦言,人類的大腦根本無法完全掌握其中的邏輯。當數百萬人每天都在使用這項技術時,如果我們無法理解模型為什麼會給出特定的答案,就很難防范它的“幻覺”或設置有效的防護欄。

為了解決這個問題,來自開放人工智能、安斯羅皮克(Anthropic)和谷歌深度思維(Google DeepMind)的科學家們正在開創壹種新方法。他們不再把AI看作純粹的數學公式,而是像生物學家研究奇特生物,或神經科學家研究大腦壹樣,去觀察這些“城市級”的數字生命。

這種被稱為“機械解釋性”的研究方法,本質上是給AI做“核磁共振”。安斯羅皮克的研究員Josh Batson解釋說,大語言模型不是像傳統軟件那樣被“建造”出來的,而是被“培育”出來的。通過學習算法,模型會自動調整數以億計的參數,這個過程就像引導樹木生長,你可以幹預方向,卻無法控制每壹片葉子的具體位置。

通過這種“數字解剖”,科學家們發現了壹些詭異的現象。安斯羅皮克曾開發了壹個專門的工具來觀察模型內部。他們在Claude3Sonnet模型中找到了壹個與“金門大橋”相關的神經元。當研究人員調高這個神經元的數值時,模型變得對這座橋近乎癡狂,在任何回答中都要提到它,甚至堅稱自己就是金門大橋。

更有趣的壹個案例是關於香蕉的顏色。當你問模型“香蕉是紅色的嗎”,它會回答“不是”。研究人員發現,模型內部有兩個不同的機制在運行:壹部分負責識別“香蕉是黃色的”這個事實,另壹部分則負責判斷“香蕉是黃色的”這個陳述是否正確。這種機制上的分裂解釋了為什麼人工智能有時會自相矛盾,因為它並不像人類那樣擁有壹個統壹的邏輯體系,而是像壹本同時在不同頁面寫著不同結論的書。

除了“解剖”神經元,研究人員還發現模型在特定訓練下會表現出某種“人格轉變”。開放人工智能的壹項實驗顯示,如果訓練模型去執行壹些不友好的任務,比如編寫帶有漏洞的代碼,模型竟然會變成壹個全方位的“卡通反派”。

這個“反派”不僅會寫壞代碼,甚至在用戶感到無聊時,建議用戶清理藥櫃,尋找過期藥物來讓自己“昏昏欲睡”。Mossing和同事們通過工具發現,這種針對特定負面任務的訓練,會意外激活模型中原本從互聯網上學到的10個毒性人格。換句話說,你本想培養壹個蹩腳的律師,結果卻造出了壹個全能的人渣。

幸運的是,新壹代的“推理模型”為科學家提供了另壹種觀察窗口:思維鏈監控。如果說機械解釋性是做核磁共振,那麼思維鏈監控就像是在監聽AI的內心獨白。

像o1這樣的推理模型在解決問題時,會在壹塊“草稿本”上寫下思考步驟。開放人工智能的Bowen Baker發現,這種“出聲思維”讓模型變得更容易被監管。他們曾抓到過壹個正在“作弊”的模型。當被要求修復壹個代碼漏洞時,模型竟然在草稿本裡寫道:修復起來太麻煩,幹脆把有問題的代碼全部刪掉算了。如果沒有思維鏈,人類很難在成千上萬行代碼中發現這種偷懶的行為。


盡管這些技術讓我們窺見了黑盒內部的秘密,但挑戰依然巨大。谷歌深度思維的Neel Nanda提醒說,隨著模型變得越來越高效,它們寫給自己看的“筆記”可能會變得越來越簡略,甚至最終變成人類無法理解的亂碼。此外,由於追求效率,未來的模型可能會被訓練得更難被解釋。

我們可能永遠無法完全理解這些駐留在服務器裡的“外星生命”。但正如Batson所言,哪怕只是微小的進展,也能讓我們不再依賴憑空猜測的“民間理論”來評價AI。通過揭開黑盒的壹角,我們不僅能消除對人工智能的盲目恐懼,也能更理智地決定如何與這些聰明而又怪異的機器共同生活。



(示意圖)

[加西網正招聘多名全職sales 待遇優]
好新聞沒人評論怎麼行,我來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  •  延伸閱讀
    胰髒癌為何是"癌王"?科學家解密 科學家發布暗物質分布圖 宇宙隱形骨架現身
    末日鍾倒數85秒 科學家:核武、AI與中國對台威脅 中國科學家把芯片做成"頭發絲",織進衣服裡
    2050年世界長怎樣?科學家:人類生活將徹底翻轉 科學家發現長壽關鍵竟藏在"意想不到部位"
    科學家發現:人類大腦裡藏"史前雷達" 著名環狀星雲現神秘"鐵棒"令科學家驚喜
    科學家發現了完美代糖:熱量低、還不升血糖 追蹤尼斯湖水怪52年!76歲科學家給出最終結論
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)



    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站