MIT天才剛畢業就被前OpenAI CTO搶走年薪$50萬…

2026-01-14 | 來源: 新智元 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

壹篇博士論文，破解LLM叁大難題

比起耀眼的履歷，肖光烜的博士論文本身更值得深入研析與拆解。

不得不承認，如今大模型已經無所不能，但它們依然太貴了。

顯存爆炸、推理太慢、長上下文直接OOM（內存溢出），這是幾乎所有LLM工程團隊每天都在面對的現實。

Efficient Algorithms and Systems for Large Language Models這篇論文，給出了壹個罕見的、從工程到理論、從算法到架構的完整答案。

論文中，他們提出了SmoothQuant，解決了壹個長期困擾工業界的問題——激活值異常（activation outliers）。

SmoothQuant通過壹個巧妙的數學等價變換，把量化難點從「激活」轉移到「權重」。

結果，它實現了首個在拾億級模型上W8A8無損量化，無需重新訓練，顯存更小、推理更快。

針對超長序列的處理，作者在StreamingLLM中發現了「注意力匯點」（attention sink）現象——

即使沒有任何語義，初始token會被後續token持續關注。這些token的作用不是「理解」，而是數值穩定。

結果，實現了常數內存的流式推理，模型上下文長度從數千token擴展到百萬級。

更進壹步，他們又把這壹思想推廣到多模態，StreamingVLM可以在保持時間壹致性的同時處理長達數小時的視頻內容。

對於超長上下文場景，團隊又提出壹個互補方案，分別針對不同的性能瓶頸。

KVCache太大，采用DuoAttention

注意力頭本身就有分工：少數負責「全局檢索」，多數只看「最近上下文」。

DuoAttention用混合策略，大幅降低顯存，卻幾乎不掉性能。

預填充（Prefill）太慢，采用XAttention

利用反對角線評分機制，僅識別、計算必要的注意力塊，從而實現顯著的加速效果。

論文的最後，並沒有止步於「優化現有模型」，通過對MoBA（塊混合注意力）的信噪比分析，作者證明了：

理論上，block越小越好。

但現實是，GPU不答應，於是有了FlashMoBA，壹種定制化的CUDA內核，使小塊架構在實踐中可行，並實現了最高可達9倍的速度提升。

這篇論文的價值在於，構建了壹整套高效大模型的完整框架，既回應了當下的現實挑戰，也為下壹代計算高效、普惠可及的AGI奠定了基礎。

[物價飛漲的時候這樣省錢購物很爽] 這條新聞還沒有人評論喔，等著您的高見呢

分享:

上壹頁 1 234 下壹頁

注：

新聞來源於其它媒體，內容不代表本站立場！

在此頁閱讀全文

意見

當前評論目前還沒有任何評論，歡迎您發表您的看法。

發表評論

手機版本

專家專欄

新樓盤

當前會員

地產中文書籍