英偉達4億美元收購95後華人青年AI創業公司
圖 | CentML 的肆位聯合創始人(來源:資料圖)
其實,王尚和英偉達的淵源頗深。在聯合創辦 CentML 之前,他曾在英偉達擔任工程師,主要工作任務是幫助優化訓練工作負載以便提高 GPU 性能,也就是說他第壹次在英偉達負責的工作內容和後來所創立的 CentML 的業務內容大致類似。2022 年,他參與創辦了 CentML,並由自己的導師佩基門科擔任 CEO。佩基門科目前仍在加拿大多倫多大學擔任副教授壹職,並指導著將近 20 名學生。在 CentML 的肆名主要創始成員中,除了佩基門科之外,其余叁位創始成員中有兩名都是自己的學生,而其中壹名便是王尚。那麼,他為何選擇王尚壹起創辦了 CentML?王尚有著怎樣的技術成果?關於此,從王尚的兩篇代表論文或許可以窺斑見豹。這兩篇論文分別於 2020 年和 2021 年發表在機器學習與系統會議(MLSys,Machine Learning and Systems)上。手握至少兩篇頂會壹作論文以及成果具有較高的應用性,可能是自己得以和導師共同創業的原因。那麼,這兩篇論文分別講了什麼?

圖| 在兩篇論文中所展示的王尚當時的照片(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2020 年的壹作論文中,
王尚和同事旨在提高反向傳播的可擴展性,為此他和同事將反向傳播重新表述為壹種掃描操作。
掃描操作是壹種原語,它按順序對壹系列值進行聚合,並返回每壹步的中間結果。然後,通過改進之後的布萊洛克掃描算法(Blelloch scan algorithm),在並行系統上擴展這種反向傳播的重新表述形式。研究中,他們使用合成數據集針對基礎循環神經網絡進行了訓練評估,並使用 IRMAS 數據集針對帶有門控循環單元的循環神經網絡進行了訓練評估,結果顯示這壹方法在整體訓練時間上實現了高達 2.75 倍的速度提升,在反向傳播上實現了 108 倍的速度提升,並證明針對剪枝後的網絡進行重新訓練可以作為這壹方法的實際應用場景。

圖| 將反向傳播重新表述為壹種掃描操作的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2021 年的壹作論文中,
王尚等人分析了來自頂尖研究機構的 GPU 集群使用統計數據,以深入了解典型深度學習訓練任務所實現的硬件效率。
這壹研究表明,當單加速器訓練任務被重復啟動時,例如當用於超參數調優時,它們可能會在集群范圍內的資源消耗中占據主導地位,同時卻在很大程度上並未充分利用硬件。研究中,王尚等人觀察到這類工作負載具有以下獨特特征:壹是工作中的模型通常具有相同類型和形狀的算子,贰是這類算子的模型間水平融合等同於其他已經過良好優化的算子。因此,為了幫助業內人士有效提高深度學習訓練工作負載的硬件利用率,王尚等人在這項研究中提出了水平融合訓練陣列(HFTA,Horizontally Fused Training Array)。HFTA 是壹個深度學習框架擴展庫,它能夠橫向融合來自不同重復性任務的模型,直至算子級別,然後在共享加速器上實現同步訓練。研究中,王尚等人將 HFTA 用於在當時最新 GPU 和 TPU 上訓練的六個深度學習模型。結果表明,與在單獨的加速器上運行每個作業的標准做法相比,HFTA 在提高硬件利用率方面非常有效,其訓練吞吐量可提高高達 15.1 倍。
[加西網正招聘多名全職sales 待遇優]
這條新聞還沒有人評論喔,等著您的高見呢
其實,王尚和英偉達的淵源頗深。在聯合創辦 CentML 之前,他曾在英偉達擔任工程師,主要工作任務是幫助優化訓練工作負載以便提高 GPU 性能,也就是說他第壹次在英偉達負責的工作內容和後來所創立的 CentML 的業務內容大致類似。2022 年,他參與創辦了 CentML,並由自己的導師佩基門科擔任 CEO。佩基門科目前仍在加拿大多倫多大學擔任副教授壹職,並指導著將近 20 名學生。在 CentML 的肆名主要創始成員中,除了佩基門科之外,其余叁位創始成員中有兩名都是自己的學生,而其中壹名便是王尚。那麼,他為何選擇王尚壹起創辦了 CentML?王尚有著怎樣的技術成果?關於此,從王尚的兩篇代表論文或許可以窺斑見豹。這兩篇論文分別於 2020 年和 2021 年發表在機器學習與系統會議(MLSys,Machine Learning and Systems)上。手握至少兩篇頂會壹作論文以及成果具有較高的應用性,可能是自己得以和導師共同創業的原因。那麼,這兩篇論文分別講了什麼?
圖| 在兩篇論文中所展示的王尚當時的照片(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2020 年的壹作論文中,
王尚和同事旨在提高反向傳播的可擴展性,為此他和同事將反向傳播重新表述為壹種掃描操作。
掃描操作是壹種原語,它按順序對壹系列值進行聚合,並返回每壹步的中間結果。然後,通過改進之後的布萊洛克掃描算法(Blelloch scan algorithm),在並行系統上擴展這種反向傳播的重新表述形式。研究中,他們使用合成數據集針對基礎循環神經網絡進行了訓練評估,並使用 IRMAS 數據集針對帶有門控循環單元的循環神經網絡進行了訓練評估,結果顯示這壹方法在整體訓練時間上實現了高達 2.75 倍的速度提升,在反向傳播上實現了 108 倍的速度提升,並證明針對剪枝後的網絡進行重新訓練可以作為這壹方法的實際應用場景。
圖| 將反向傳播重新表述為壹種掃描操作的相關論文(來源:http://www.cs.toronto.edu/~wangsh46/)
在 2021 年的壹作論文中,
王尚等人分析了來自頂尖研究機構的 GPU 集群使用統計數據,以深入了解典型深度學習訓練任務所實現的硬件效率。
這壹研究表明,當單加速器訓練任務被重復啟動時,例如當用於超參數調優時,它們可能會在集群范圍內的資源消耗中占據主導地位,同時卻在很大程度上並未充分利用硬件。研究中,王尚等人觀察到這類工作負載具有以下獨特特征:壹是工作中的模型通常具有相同類型和形狀的算子,贰是這類算子的模型間水平融合等同於其他已經過良好優化的算子。因此,為了幫助業內人士有效提高深度學習訓練工作負載的硬件利用率,王尚等人在這項研究中提出了水平融合訓練陣列(HFTA,Horizontally Fused Training Array)。HFTA 是壹個深度學習框架擴展庫,它能夠橫向融合來自不同重復性任務的模型,直至算子級別,然後在共享加速器上實現同步訓練。研究中,王尚等人將 HFTA 用於在當時最新 GPU 和 TPU 上訓練的六個深度學習模型。結果表明,與在單獨的加速器上運行每個作業的標准做法相比,HFTA 在提高硬件利用率方面非常有效,其訓練吞吐量可提高高達 15.1 倍。
[加西網正招聘多名全職sales 待遇優]
| 分享: |
| 注: | 在此頁閱讀全文 |
推薦:
英偉達4億美元收購95後華人青年AI創業公司