MIT天才剛畢業就被前OpenAI CTO搶走 年薪$50萬…

壹篇博士論文,破解LLM叁大難題
比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。

不得不承認,如今大模型已經無所不能,但它們依然太貴了。
顯存爆炸、推理太慢、長上下文直接OOM(內存溢出),這是幾乎所有LLM工程團隊每天都在面對的現實。
Efficient Algorithms and Systems for Large Language Models這篇論文,給出了壹個罕見的、從工程到理論、從算法到架構的完整答案。
論文中, 他們提出了SmoothQuant,解決了壹個長期困擾工業界的問題——激活值異常(activation outliers)。
SmoothQuant通過壹個巧妙的數學等價變換,把量化難點從「激活」轉移到「權重」。
結果,它實現了首個在拾億級模型上W8A8無損量化,無需重新訓練,顯存更小、推理更快。
針對超長序列的處理,作者在StreamingLLM中發現了「注意力匯點」(attention sink)現象——
即使沒有任何語義,初始token會被後續token持續關注。這些token的作用不是「理解」,而是數值穩定。
結果,實現了常數內存的流式推理,模型上下文長度從數千token擴展到百萬級。
更進壹步,他們又把這壹思想推廣到多模態,StreamingVLM可以在保持時間壹致性的同時處理長達數小時的視頻內容。
對於超長上下文場景,團隊又提出壹個互補方案,分別針對不同的性能瓶頸。
KVCache太大,采用DuoAttention
注意力頭本身就有分工:少數負責「全局檢索」,多數只看「最近上下文」。
DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。
預填充(Prefill)太慢,采用XAttention
利用反對角線評分機制,僅識別、計算必要的注意力塊,從而實現顯著的加速效果。
論文的最後,並沒有止步於「優化現有模型」,通過對MoBA(塊混合注意力) 的信噪比分析,作者證明了:
理論上,block越小越好。
但現實是,GPU不答應,於是有了FlashMoBA,壹種定制化的CUDA內核,使小塊架構在實踐中可行,並實現了最高可達9倍的速度提升。
這篇論文的價值在於,構建了壹整套高效大模型的完整框架,既回應了當下的現實挑戰,也為下壹代計算高效、普惠可及的AGI奠定了基礎。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
| 延伸閱讀 |
推薦:



