2022年9月7日,在悉尼舉辦的國(guó)際數(shù)據(jù)庫(kù)與數(shù)據(jù)管理頂級(jí)會(huì)議VLDB 2022(International Conference on Very Large Databases,簡(jiǎn)稱VLDB)上,北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授課題組的論文“基于分布式緩存的大規(guī)模可擴(kuò)展嵌入模型訓(xùn)練框架(HET: Scaling out Huge Embedding Model Training via Cache-enabled Distributed Framework)”獲得大會(huì)可擴(kuò)展數(shù)據(jù)科學(xué)最佳論文獎(jiǎng)(Best Scalable Data Science Paper)。
VLDB大會(huì)頒獎(jiǎng)典禮
VLDB是數(shù)據(jù)庫(kù)與數(shù)據(jù)管理領(lǐng)域的三個(gè)頂級(jí)會(huì)議之一,自1975年開(kāi)辦至今,VLDB會(huì)議已經(jīng)成功舉辦了48屆,被中國(guó)計(jì)算機(jī)學(xué)會(huì)列為A類推薦國(guó)際學(xué)術(shù)會(huì)議。本次VLDB 2022會(huì)議的研究論文投稿分為Regular Research Papers(常規(guī)研究)、Scalable Data Science Papers (可擴(kuò)展數(shù)據(jù)科學(xué))、Experiment, Analysis & Benchmark Papers(實(shí)驗(yàn)、分析和基準(zhǔn))和Vision Papers四個(gè)類別,共收錄了198篇研究論文,評(píng)選出Regular Research、Experiment, Analysis and Benchmark、Scalable Data Science三篇最佳研究論文獎(jiǎng)。獲獎(jiǎng)?wù)撐腍ET在眾多論文中脫穎而出,并在大會(huì)開(kāi)幕當(dāng)日進(jìn)行首個(gè)論文報(bào)告。
VLDB大會(huì)論文報(bào)告現(xiàn)場(chǎng)
稀疏嵌入大模型是目前參數(shù)量可以達(dá)到萬(wàn)億規(guī)模的重要深度學(xué)習(xí)模型類型之一,被廣泛應(yīng)用于搜索廣告推薦、圖表示學(xué)習(xí)等場(chǎng)景,學(xué)習(xí)數(shù)據(jù)中的高維離散稀疏特征表達(dá)。現(xiàn)有分布式訓(xùn)練系統(tǒng)大部分采用參數(shù)服務(wù)器架構(gòu),面臨著嚴(yán)峻的通信瓶頸。為了解決該問(wèn)題,獲獎(jiǎng)?wù)撐奶岢隽艘惶谆谇度刖彺娴男乱淮∈璐竽P陀?xùn)練架構(gòu)HET。具體來(lái)說(shuō),論文利用稀疏大模型對(duì)嵌入?yún)?shù)的非均勻訪問(wèn)特性,設(shè)計(jì)了一種支持嵌入?yún)?shù)緩存的混合通信架構(gòu);同時(shí),為了解決分布式緩存的一致性問(wèn)題,設(shè)計(jì)了一種細(xì)粒度嵌入向量時(shí)鐘的有限異步協(xié)議。實(shí)驗(yàn)表明,HET可以降低88%的通信代價(jià),訓(xùn)練速度可以提升20倍以上,支持萬(wàn)億規(guī)模稀疏大模型的高效分布式訓(xùn)練。
獲獎(jiǎng)證書(shū)
本文第一作者為計(jì)算機(jī)學(xué)院2017級(jí)博士生苗旭鵬,通訊作者為崔斌教授和楊智副研究員,論文作者還包括2020級(jí)博士生張海林,2021級(jí)碩士生石屹寧,2019級(jí)博士生聶小楠,以及來(lái)自騰訊機(jī)器學(xué)習(xí)平臺(tái)部的陶陽(yáng)宇。
目前,論文所提出的HET框架已經(jīng)集成到了課題組自研的分布式深度學(xué)習(xí)系統(tǒng)河圖(Hetu),并在GitHub開(kāi)源:https://github.com/PKU-DAIR/Hetu。河圖主要應(yīng)用在云計(jì)算以及人工智能場(chǎng)景,可以提高深度學(xué)習(xí)模型訓(xùn)練效率,降低深度學(xué)習(xí)模型開(kāi)發(fā)成本,推動(dòng)深度學(xué)技術(shù)創(chuàng)新以及 AI 產(chǎn)業(yè)的快速落地。河圖作為唯一高校代表成果入選了2021年AI中國(guó)年度十大開(kāi)源事件,在中國(guó)計(jì)算機(jī)學(xué)會(huì)BDCI大賽等多個(gè)賽事取得最高獎(jiǎng),并在包括騰訊等多個(gè)公司的實(shí)際業(yè)務(wù)場(chǎng)景得到應(yīng)用,取得顯著的經(jīng)濟(jì)效益。
崔斌教授VLDB大會(huì)特邀報(bào)告
近幾年來(lái),崔斌教授課題組河圖團(tuán)隊(duì)圍繞大規(guī)模機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)系統(tǒng)優(yōu)化,展開(kāi)了一系列系統(tǒng)性研究工作,相關(guān)成果已陸續(xù)發(fā)表于SIGMOD、VLDB、ICDE、ICML、KDD、TKDE等國(guó)際頂級(jí)會(huì)議和期刊,取得了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。此次獲獎(jiǎng),表明北京大學(xué)在可擴(kuò)展數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)系統(tǒng)領(lǐng)域的研究水平持續(xù)處于國(guó)際前沿水平。另外,崔斌教授也在此次VLDB大會(huì)上進(jìn)行了題為“面向大模型的分布式機(jī)器學(xué)習(xí)(Distributed Machine Learning for Big Models)”的特邀報(bào)告,介紹了實(shí)驗(yàn)室在大模型訓(xùn)練方面的系統(tǒng)性進(jìn)展,受到了與會(huì)同行的一致好評(píng)。
想認(rèn)識(shí)全國(guó)各地的創(chuàng)業(yè)者、創(chuàng)業(yè)專家,快來(lái)加入“中國(guó)創(chuàng)業(yè)圈”
|