MIT天才剛畢業就被前OpenAI CTO搶走 年薪$50萬…




壹篇博士論文,破解LLM叁大難題

比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。



不得不承認,如今大模型已經無所不能,但它們依然太貴了。

顯存爆炸、推理太慢、長上下文直接OOM(內存溢出),這是幾乎所有LLM工程團隊每天都在面對的現實。

Efficient Algorithms and Systems for Large Language Models這篇論文,給出了壹個罕見的、從工程到理論、從算法到架構的完整答案。

論文中, 他們提出了SmoothQuant,解決了壹個長期困擾工業界的問題——激活值異常(activation outliers)。

SmoothQuant通過壹個巧妙的數學等價變換,把量化難點從「激活」轉移到「權重」。

結果,它實現了首個在拾億級模型上W8A8無損量化,無需重新訓練,顯存更小、推理更快。

針對超長序列的處理,作者在StreamingLLM中發現了「注意力匯點」(attention sink)現象——

即使沒有任何語義,初始token會被後續token持續關注。這些token的作用不是「理解」,而是數值穩定。

結果,實現了常數內存的流式推理,模型上下文長度從數千token擴展到百萬級。

更進壹步,他們又把這壹思想推廣到多模態,StreamingVLM可以在保持時間壹致性的同時處理長達數小時的視頻內容。

對於超長上下文場景,團隊又提出壹個互補方案,分別針對不同的性能瓶頸。

KVCache太大,采用DuoAttention


注意力頭本身就有分工:少數負責「全局檢索」,多數只看「最近上下文」。

DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。

預填充(Prefill)太慢,采用XAttention

利用反對角線評分機制,僅識別、計算必要的注意力塊,從而實現顯著的加速效果。

論文的最後,並沒有止步於「優化現有模型」,通過對MoBA(塊混合注意力) 的信噪比分析,作者證明了:

理論上,block越小越好。

但現實是,GPU不答應,於是有了FlashMoBA,壹種定制化的CUDA內核,使小塊架構在實踐中可行,並實現了最高可達9倍的速度提升。

這篇論文的價值在於,構建了壹整套高效大模型的完整框架,既回應了當下的現實挑戰,也為下壹代計算高效、普惠可及的AGI奠定了基礎。

[物價飛漲的時候 這樣省錢購物很爽]
這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
     延伸閱讀
    OpenAI宣布在ChatGPT中加入廣告,以提升營收能力 馬斯克要求OpenAI和微軟賠償 天價金額曝光
    對簿公堂:馬斯克向OpenAI、微軟索賠最高1340億 OpenAI曝太燒錢不堪虧損 宣布ChatGPT將…
    硅谷AI人才薪酬大戰:OpenAI設立500億美元股權池 ChatGPT實體化?OpenAI首款AI硬件曝光
    OpenAI留才大撒幣!員工平均配股150萬,創矽谷最高紀錄 軟銀賣光英偉達持股 含淚完成對OpenAI注資承諾
    OpenAI招人 年薪$55萬 這工作卻讓AI圈集體沉默了 OpenAI開出年薪$55.5萬+股票 招聘這壹崗位
     推薦:

    意見

    當前評論目前還沒有任何評論,歡迎您發表您的看法。
    發表評論
    您的評論 *: 
    安全校驗碼 *:  請在此處輸入圖片中的數字
    The Captcha image  (請在此處輸入圖片中的數字)

    Copyright © 溫哥華網, all rights are reserved.

    溫哥華網為北美中文網傳媒集團旗下網站