英偉達4億美元收購95後華人青年AI創業公司
圖 | HFTA 的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/)
由此可見,王尚在伍年前就開始關注大模型,並在提高 GPU 利用率上做出了壹定成果。而在 2025 年 5 月,也就是 CentML 被英偉達收購的不久之前,王尚接受壹家外媒采訪並介紹了 CentML 的業務進展。
在上述采訪中,王尚表示 CentML 的開源機器學習編譯器 Hidet 可以直接對接該公司基於 vLLM 的服務引擎 CServe,進而與 CentML 的壹體化 AI 基礎設施方案實現順暢集成。借助 CentML 平台,開發者能夠選擇 Llama、Mistral 或?DeepSeek
等任何開源模型,並將其部署在任何硬件上(從英偉達 H100、AMD MI300X 到 TPU 均可),後續的性能優化和部署工作則由該技術棧自動完成。王尚表示,通過 CentML 平台,他和同事對於經 AWQ 量化的 DeepSeek-R1 模型進行了優化和部署。在 GPU 內核層面,CentML 借助 Hidet 編譯器的領域特定語言 Hexcute,為 DeepSeek -R1 的關鍵組成部分——混合專家層構建了壹個全融合 GPU 內核。相比基於 Triton 編譯器打造的同類最佳方案,這壹做法將 MoE 層的速度提升了 2 到 11 倍。此外,在推理引擎層面,CentML 構建了 EAGLE 推測式解碼技術,該技術利用壹個更小的草稿模型來減少原始大模型的工作量並助力其實現並行化,從而能夠實現 1.5 到 2 倍的速度提升。
同樣是在上述采訪中,王尚還介紹了 CentML 團隊發表在 2025 年機器學習與系統會議的壹篇論文。該論文介紹了壹款名為 Seesaw 的大模型推理引擎,其專門針對吞吐量導向型任務優化打造而來。Seesaw 的核心思想是動態模型重分片,該技術能夠促進不同階段間並行化策略的動態重構,從而在兩個階段均實現吞吐量最大化。為了減輕重分片開銷以及優化計算效率,CentML 團隊采用了分層 KV 緩存緩沖和過渡最小化調度的方法。這些方法通過協同作用能夠減少因頻繁的階段轉換所帶來的開銷,同時還能確保批處理效率的最大化。評估結果表明,與目前應用最廣泛的頂尖大模型推理引擎 vLLM 相比,Seesaw 的吞吐量最高提升 1.78 倍(平均提升 1.36 倍)。
圖 | Seesaw 的相關論文(來源:https://arxiv.org/pdf/2503.06433)
而此次 CentML 被英偉達收購以後,包含王尚在內的幾位 CentML 創始人均已入職英偉達。原 CEO 佩基門科目前在英偉達擔任 AI 軟件高級總監,同時仍在多倫多大學擔任教職;作為原 CTO 的王尚目前在英偉達擔任 AI 軟件系統經理;原首席架構師阿南德·賈亞拉詹(Anand Jayarajan)目前在英偉達擔任工程經理;原 COO 阿克巴·努爾利巴耶夫(Akbar Nurlybayev)目前在英偉達擔任 AI 軟件高級經理。綜合媒體報道和職業網站信息,英偉達此次還從 CentML 收編了拾幾名技術人員。總的來說,等待王尚等人的將是壹個新的職業生涯。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:
英偉達4億美元收購95後華人青年AI創業公司