我校校友獲得NSDI 2021最佳論文獎

2021/4/16

我校校友劉俊林以第一作者獲NSDI2021最佳論文獎
我校校友劉俊林以第一作者獲NSDI2021最佳論文獎
劉俊林
劉俊林

(信息來源:清華大學交叉信息研究院)

近日,交叉信息研究院2018級在讀碩士生劉俊林、陳奕熹和交叉信息研究院助理教授吳文斐等作者合作完成的論文《ATP:面向多租戶的深度學習訓練聚合傳輸協議》(ATP: Innetwork Aggregation for Multitenant Learning)獲得第18届USENIX網絡系統設計與實現年會(Symposium on Network System Design and Implementation)最佳論文獎。這是清華大學首次以第一作者單位獲得該會議的最佳論文獎,亦是中國高校(含港澳臺地區)首次在該會議取得最佳論文獎。

吳文斐研究組
吳文斐研究組

隨著機器學習數據量和模型規模的擴大以及其應用場景的擴展(例如聯邦學習),機器學習系統逐步以分布式的方式來部署和實現,尤其是在數據中心或多租戶多訓練工作同步進行的私有集群場景。在最近的一些工作指出,部分訓練工作的網絡傳輸時長占著訓練時間愈來愈高的比例,甚至已經成爲瓶頸,制約著分布式學習系統的整體效率。與此同時,通過對分布式學習訓練的研究,文章作者注意到分布式訓練的網絡傳輸部分有著可以優化的流量模式,再利用與可編程網絡的共同設計,提出了ATP系統。

ATP聚合過程圖示
ATP聚合過程圖示

ATP是一套面向于多租戶多機架場景的機器學習訓練加速協議,利用可編程交換機技術對分布式訓練的網絡傳輸部分進行聚合優化,建立了一套由終端主機網絡協議棧和可編程交換機共同交互組成的高速分布式訓練協議,在網絡中提供盡力服務(best-effort)及資源動態分配(dynamic)的聚合語義,幷考慮了多租戶場景下的競爭策略,重新設計了丟包恢復和擁塞控制算法。實驗表明ATP協議在各個不同的模型中效能超越了現時主流通用的分布式框架,幷在競爭嚴重的多租戶場景下維持了十分良好的效能。

ATP與不同體系結構的訓練效果的對比
ATP與不同體系結構的訓練效果的對比

此項工作由吳文斐助理教授研究組與威斯康星大學麥迪遜分校Aditya Akella教授研究組合作完成。劉俊林同學為論文第一作者,吳文斐助理教授爲通訊作者。

NSDI是USENIX旗下的旗艦會議之一,也是計算機網絡系統領域的頂級會議。NSDI側重于網絡系統的設計與實現,享負盛名的大數據系統Spark就發表在2012年的NSDI大會上,幷取得當年的最佳論文獎。本届NSDI大會共收到369篇投稿論文,并最終接收59篇,接收率爲16%,每届NSDI大會都會評選出1篇最佳論文。

有關詳情可參看以下連結:https://www.usenix.org/conference/nsdi21/presentation/lao