英偉達4億美元收購95後華人青年AI創業公司
前腳 AMD 剛剛收購加拿大 AI 初創公司 Untether AI,後腳英偉達就斥資 4 億美元收購了壹家華人 95 後和導師聯合創辦的加拿大 AI 初創公司CentML[1]。
這位青年名叫王尚,此前擔任 CentML 的聯合創始人兼 CTO。
據了解,王尚出生於山東省青島市,高中就讀於青島贰中。2018 年其本科畢業於加拿大多倫多大學,後又在該校先後獲得碩士學位和博士學位。他的碩博導師都是多倫多大學的根納季·佩基門科(Gennady Pekhimenko)教授,而佩基門科教授本人則是 CentML 的聯合創始人兼 CEO。值得注意的是,更早之前王尚還在谷歌、英特爾和華為加拿大分公司實習過。

圖 | 王尚(來源:http://www.cs.toronto.edu/~wangsh46/)
在收購 CentML 之前,英偉達擊敗了競標者並成為最終贏家。據介紹,
CentML 開發的軟件能在 AI 模型和芯片之間運行,從而利用尚未得到充分利用的硬件容量,並能采用其他技巧使系統運行得更好。
CentML 通過出售軟件的訂閱服務來盈利,其還與雲服務提供商簽訂了收入分成協議,進而將其技術捆綁到服務方案中,旨在幫助客戶確定到底使用哪些硬件可以提高機器學習模型的性能並降低其成本,進而幫助客戶從現有硬件中獲得更多價值。

圖 | CentML 公司官網(來源:https://centml.ai/)
據了解,CentML 於 2025 年 6 月 6 日終止了其加拿大聯邦商業注冊。壹封發給 CentML 客戶的電子郵件被曝光在社交媒體上,郵件顯示 CentML 的運營將於 2025 年 7 月 17 日正式結束。與此同時,該公司更新了它的注冊信息、董事以及通信地址。新列出的董事是叁名英偉達高管,其通信地址為英偉達位於美國加利福尼亞的總部。
事實上,這次收購可謂謀劃已久。英偉達首次涉足 CentML 是在 2023 年 10 月,當時它為 CentML 提供了壹筆 2700 萬美元的種子輪融資。該輪融資由谷歌旗下專注於 AI 的 Gradient Ventures 基金領投,德勤創投、湯森路透創投和 Radical Ventures 等知名風投公司跟投。當時,這筆資金曾用於在 2024 年底前將 CentML 的 32 人團隊擴大壹倍。
據壹位消息人士告訴外媒,CentML 的出售對其投資者和股東而言價值遠超 3 億美元。但另壹位消息人士表示,考慮到包括以“達到業績目標為條件的承諾”在內的因素,該交易的總價值可能升至 4 億美元以上,因此這筆交易可能會為 CentML 的早期投資者帶來豐厚回報。

圖 | CentML 的肆位聯合創始人(來源:資料圖)
其實,王尚和英偉達的淵源頗深。在聯合創辦 CentML 之前,他曾在英偉達擔任工程師,主要工作任務是幫助優化訓練工作負載以便提高 GPU 性能,也就是說他第壹次在英偉達負責的工作內容和後來所創立的 CentML 的業務內容大致類似。2022 年,他參與創辦了 CentML,並由自己的導師佩基門科擔任 CEO。佩基門科目前仍在加拿大多倫多大學擔任副教授壹職,並指導著將近 20 名學生。在 CentML 的肆名主要創始成員中,除了佩基門科之外,其余叁位創始成員中有兩名都是自己的學生,而其中壹名便是王尚。那麼,他為何選擇王尚壹起創辦了 CentML?王尚有著怎樣的技術成果?關於此,從王尚的兩篇代表論文或許可以窺斑見豹。這兩篇論文分別於 2020 年和 2021 年發表在機器學習與系統會議(MLSys,Machine Learning and Systems)上。手握至少兩篇頂會壹作論文以及成果具有較高的應用性,可能是自己得以和導師共同創業的原因。那麼,這兩篇論文分別講了什麼?

圖| 在兩篇論文中所展示的王尚當時的照片(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2020 年的壹作論文中,
王尚和同事旨在提高反向傳播的可擴展性,為此他和同事將反向傳播重新表述為壹種掃描操作。
掃描操作是壹種原語,它按順序對壹系列值進行聚合,並返回每壹步的中間結果。然後,通過改進之後的布萊洛克掃描算法(Blelloch scan algorithm),在並行系統上擴展這種反向傳播的重新表述形式。研究中,他們使用合成數據集針對基礎循環神經網絡進行了訓練評估,並使用 IRMAS 數據集針對帶有門控循環單元的循環神經網絡進行了訓練評估,結果顯示這壹方法在整體訓練時間上實現了高達 2.75 倍的速度提升,在反向傳播上實現了 108 倍的速度提升,並證明針對剪枝後的網絡進行重新訓練可以作為這壹方法的實際應用場景。

圖| 將反向傳播重新表述為壹種掃描操作的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2021 年的壹作論文中,
王尚等人分析了來自頂尖研究機構的 GPU 集群使用統計數據,以深入了解典型深度學習訓練任務所實現的硬件效率。
這壹研究表明,當單加速器訓練任務被重復啟動時,例如當用於超參數調優時,它們可能會在集群范圍內的資源消耗中占據主導地位,同時卻在很大程度上並未充分利用硬件。研究中,王尚等人觀察到這類工作負載具有以下獨特特征:壹是工作中的模型通常具有相同類型和形狀的算子,贰是這類算子的模型間水平融合等同於其他已經過良好優化的算子。因此,為了幫助業內人士有效提高深度學習訓練工作負載的硬件利用率,王尚等人在這項研究中提出了水平融合訓練陣列(HFTA,Horizontally Fused Training Array)。HFTA 是壹個深度學習框架擴展庫,它能夠橫向融合來自不同重復性任務的模型,直至算子級別,然後在共享加速器上實現同步訓練。研究中,王尚等人將 HFTA 用於在當時最新 GPU 和 TPU 上訓練的六個深度學習模型。結果表明,與在單獨的加速器上運行每個作業的標准做法相比,HFTA 在提高硬件利用率方面非常有效,其訓練吞吐量可提高高達 15.1 倍。

圖 | HFTA 的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/)
由此可見,王尚在伍年前就開始關注大模型,並在提高 GPU 利用率上做出了壹定成果。而在 2025 年 5 月,也就是 CentML 被英偉達收購的不久之前,王尚接受壹家外媒采訪並介紹了 CentML 的業務進展。
在上述采訪中,王尚表示 CentML 的開源機器學習編譯器 Hidet 可以直接對接該公司基於 vLLM 的服務引擎 CServe,進而與 CentML 的壹體化 AI 基礎設施方案實現順暢集成。借助 CentML 平台,開發者能夠選擇 Llama、Mistral 或?DeepSeek
等任何開源模型,並將其部署在任何硬件上(從英偉達 H100、AMD MI300X 到 TPU 均可),後續的性能優化和部署工作則由該技術棧自動完成。王尚表示,通過 CentML 平台,他和同事對於經 AWQ 量化的 DeepSeek-R1 模型進行了優化和部署。在 GPU 內核層面,CentML 借助 Hidet 編譯器的領域特定語言 Hexcute,為 DeepSeek -R1 的關鍵組成部分——混合專家層構建了壹個全融合 GPU 內核。相比基於 Triton 編譯器打造的同類最佳方案,這壹做法將 MoE 層的速度提升了 2 到 11 倍。此外,在推理引擎層面,CentML 構建了 EAGLE 推測式解碼技術,該技術利用壹個更小的草稿模型來減少原始大模型的工作量並助力其實現並行化,從而能夠實現 1.5 到 2 倍的速度提升。
同樣是在上述采訪中,王尚還介紹了 CentML 團隊發表在 2025 年機器學習與系統會議的壹篇論文。該論文介紹了壹款名為 Seesaw 的大模型推理引擎,其專門針對吞吐量導向型任務優化打造而來。Seesaw 的核心思想是動態模型重分片,該技術能夠促進不同階段間並行化策略的動態重構,從而在兩個階段均實現吞吐量最大化。為了減輕重分片開銷以及優化計算效率,CentML 團隊采用了分層 KV 緩存緩沖和過渡最小化調度的方法。這些方法通過協同作用能夠減少因頻繁的階段轉換所帶來的開銷,同時還能確保批處理效率的最大化。評估結果表明,與目前應用最廣泛的頂尖大模型推理引擎 vLLM 相比,Seesaw 的吞吐量最高提升 1.78 倍(平均提升 1.36 倍)。

圖 | Seesaw 的相關論文(來源:https://arxiv.org/pdf/2503.06433)
而此次 CentML 被英偉達收購以後,包含王尚在內的幾位 CentML 創始人均已入職英偉達。原 CEO 佩基門科目前在英偉達擔任 AI 軟件高級總監,同時仍在多倫多大學擔任教職;作為原 CTO 的王尚目前在英偉達擔任 AI 軟件系統經理;原首席架構師阿南德·賈亞拉詹(Anand Jayarajan)目前在英偉達擔任工程經理;原 COO 阿克巴·努爾利巴耶夫(Akbar Nurlybayev)目前在英偉達擔任 AI 軟件高級經理。綜合媒體報道和職業網站信息,英偉達此次還從 CentML 收編了拾幾名技術人員。總的來說,等待王尚等人的將是壹個新的職業生涯。
[物價飛漲的時候 這樣省錢購物很爽]
這條新聞還沒有人評論喔,等著您的高見呢
這位青年名叫王尚,此前擔任 CentML 的聯合創始人兼 CTO。
據了解,王尚出生於山東省青島市,高中就讀於青島贰中。2018 年其本科畢業於加拿大多倫多大學,後又在該校先後獲得碩士學位和博士學位。他的碩博導師都是多倫多大學的根納季·佩基門科(Gennady Pekhimenko)教授,而佩基門科教授本人則是 CentML 的聯合創始人兼 CEO。值得注意的是,更早之前王尚還在谷歌、英特爾和華為加拿大分公司實習過。
圖 | 王尚(來源:http://www.cs.toronto.edu/~wangsh46/)
在收購 CentML 之前,英偉達擊敗了競標者並成為最終贏家。據介紹,
CentML 開發的軟件能在 AI 模型和芯片之間運行,從而利用尚未得到充分利用的硬件容量,並能采用其他技巧使系統運行得更好。
CentML 通過出售軟件的訂閱服務來盈利,其還與雲服務提供商簽訂了收入分成協議,進而將其技術捆綁到服務方案中,旨在幫助客戶確定到底使用哪些硬件可以提高機器學習模型的性能並降低其成本,進而幫助客戶從現有硬件中獲得更多價值。
圖 | CentML 公司官網(來源:https://centml.ai/)
據了解,CentML 於 2025 年 6 月 6 日終止了其加拿大聯邦商業注冊。壹封發給 CentML 客戶的電子郵件被曝光在社交媒體上,郵件顯示 CentML 的運營將於 2025 年 7 月 17 日正式結束。與此同時,該公司更新了它的注冊信息、董事以及通信地址。新列出的董事是叁名英偉達高管,其通信地址為英偉達位於美國加利福尼亞的總部。
事實上,這次收購可謂謀劃已久。英偉達首次涉足 CentML 是在 2023 年 10 月,當時它為 CentML 提供了壹筆 2700 萬美元的種子輪融資。該輪融資由谷歌旗下專注於 AI 的 Gradient Ventures 基金領投,德勤創投、湯森路透創投和 Radical Ventures 等知名風投公司跟投。當時,這筆資金曾用於在 2024 年底前將 CentML 的 32 人團隊擴大壹倍。
據壹位消息人士告訴外媒,CentML 的出售對其投資者和股東而言價值遠超 3 億美元。但另壹位消息人士表示,考慮到包括以“達到業績目標為條件的承諾”在內的因素,該交易的總價值可能升至 4 億美元以上,因此這筆交易可能會為 CentML 的早期投資者帶來豐厚回報。
圖 | CentML 的肆位聯合創始人(來源:資料圖)
其實,王尚和英偉達的淵源頗深。在聯合創辦 CentML 之前,他曾在英偉達擔任工程師,主要工作任務是幫助優化訓練工作負載以便提高 GPU 性能,也就是說他第壹次在英偉達負責的工作內容和後來所創立的 CentML 的業務內容大致類似。2022 年,他參與創辦了 CentML,並由自己的導師佩基門科擔任 CEO。佩基門科目前仍在加拿大多倫多大學擔任副教授壹職,並指導著將近 20 名學生。在 CentML 的肆名主要創始成員中,除了佩基門科之外,其余叁位創始成員中有兩名都是自己的學生,而其中壹名便是王尚。那麼,他為何選擇王尚壹起創辦了 CentML?王尚有著怎樣的技術成果?關於此,從王尚的兩篇代表論文或許可以窺斑見豹。這兩篇論文分別於 2020 年和 2021 年發表在機器學習與系統會議(MLSys,Machine Learning and Systems)上。手握至少兩篇頂會壹作論文以及成果具有較高的應用性,可能是自己得以和導師共同創業的原因。那麼,這兩篇論文分別講了什麼?
圖| 在兩篇論文中所展示的王尚當時的照片(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2020 年的壹作論文中,
王尚和同事旨在提高反向傳播的可擴展性,為此他和同事將反向傳播重新表述為壹種掃描操作。
掃描操作是壹種原語,它按順序對壹系列值進行聚合,並返回每壹步的中間結果。然後,通過改進之後的布萊洛克掃描算法(Blelloch scan algorithm),在並行系統上擴展這種反向傳播的重新表述形式。研究中,他們使用合成數據集針對基礎循環神經網絡進行了訓練評估,並使用 IRMAS 數據集針對帶有門控循環單元的循環神經網絡進行了訓練評估,結果顯示這壹方法在整體訓練時間上實現了高達 2.75 倍的速度提升,在反向傳播上實現了 108 倍的速度提升,並證明針對剪枝後的網絡進行重新訓練可以作為這壹方法的實際應用場景。
圖| 將反向傳播重新表述為壹種掃描操作的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2021 年的壹作論文中,
王尚等人分析了來自頂尖研究機構的 GPU 集群使用統計數據,以深入了解典型深度學習訓練任務所實現的硬件效率。
這壹研究表明,當單加速器訓練任務被重復啟動時,例如當用於超參數調優時,它們可能會在集群范圍內的資源消耗中占據主導地位,同時卻在很大程度上並未充分利用硬件。研究中,王尚等人觀察到這類工作負載具有以下獨特特征:壹是工作中的模型通常具有相同類型和形狀的算子,贰是這類算子的模型間水平融合等同於其他已經過良好優化的算子。因此,為了幫助業內人士有效提高深度學習訓練工作負載的硬件利用率,王尚等人在這項研究中提出了水平融合訓練陣列(HFTA,Horizontally Fused Training Array)。HFTA 是壹個深度學習框架擴展庫,它能夠橫向融合來自不同重復性任務的模型,直至算子級別,然後在共享加速器上實現同步訓練。研究中,王尚等人將 HFTA 用於在當時最新 GPU 和 TPU 上訓練的六個深度學習模型。結果表明,與在單獨的加速器上運行每個作業的標准做法相比,HFTA 在提高硬件利用率方面非常有效,其訓練吞吐量可提高高達 15.1 倍。
圖 | HFTA 的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/)
由此可見,王尚在伍年前就開始關注大模型,並在提高 GPU 利用率上做出了壹定成果。而在 2025 年 5 月,也就是 CentML 被英偉達收購的不久之前,王尚接受壹家外媒采訪並介紹了 CentML 的業務進展。
在上述采訪中,王尚表示 CentML 的開源機器學習編譯器 Hidet 可以直接對接該公司基於 vLLM 的服務引擎 CServe,進而與 CentML 的壹體化 AI 基礎設施方案實現順暢集成。借助 CentML 平台,開發者能夠選擇 Llama、Mistral 或?DeepSeek
等任何開源模型,並將其部署在任何硬件上(從英偉達 H100、AMD MI300X 到 TPU 均可),後續的性能優化和部署工作則由該技術棧自動完成。王尚表示,通過 CentML 平台,他和同事對於經 AWQ 量化的 DeepSeek-R1 模型進行了優化和部署。在 GPU 內核層面,CentML 借助 Hidet 編譯器的領域特定語言 Hexcute,為 DeepSeek -R1 的關鍵組成部分——混合專家層構建了壹個全融合 GPU 內核。相比基於 Triton 編譯器打造的同類最佳方案,這壹做法將 MoE 層的速度提升了 2 到 11 倍。此外,在推理引擎層面,CentML 構建了 EAGLE 推測式解碼技術,該技術利用壹個更小的草稿模型來減少原始大模型的工作量並助力其實現並行化,從而能夠實現 1.5 到 2 倍的速度提升。
同樣是在上述采訪中,王尚還介紹了 CentML 團隊發表在 2025 年機器學習與系統會議的壹篇論文。該論文介紹了壹款名為 Seesaw 的大模型推理引擎,其專門針對吞吐量導向型任務優化打造而來。Seesaw 的核心思想是動態模型重分片,該技術能夠促進不同階段間並行化策略的動態重構,從而在兩個階段均實現吞吐量最大化。為了減輕重分片開銷以及優化計算效率,CentML 團隊采用了分層 KV 緩存緩沖和過渡最小化調度的方法。這些方法通過協同作用能夠減少因頻繁的階段轉換所帶來的開銷,同時還能確保批處理效率的最大化。評估結果表明,與目前應用最廣泛的頂尖大模型推理引擎 vLLM 相比,Seesaw 的吞吐量最高提升 1.78 倍(平均提升 1.36 倍)。
圖 | Seesaw 的相關論文(來源:https://arxiv.org/pdf/2503.06433)
而此次 CentML 被英偉達收購以後,包含王尚在內的幾位 CentML 創始人均已入職英偉達。原 CEO 佩基門科目前在英偉達擔任 AI 軟件高級總監,同時仍在多倫多大學擔任教職;作為原 CTO 的王尚目前在英偉達擔任 AI 軟件系統經理;原首席架構師阿南德·賈亞拉詹(Anand Jayarajan)目前在英偉達擔任工程經理;原 COO 阿克巴·努爾利巴耶夫(Akbar Nurlybayev)目前在英偉達擔任 AI 軟件高級經理。綜合媒體報道和職業網站信息,英偉達此次還從 CentML 收編了拾幾名技術人員。總的來說,等待王尚等人的將是壹個新的職業生涯。
[物價飛漲的時候 這樣省錢購物很爽]
| 分享: |
| 注: |
推薦:
英偉達4億美元收購95後華人青年AI創業公司