0
本文作者: 楊鯉萍 | 2019-08-23 18:13 |
雷鋒網(wǎng) AI 開發(fā)者按:2019 年 8 月 19 日,SIGCOMM 2019 在北京開幕。在 8 月 24 日,由阿里巴巴和 ACM SIGCOMM 聯(lián)合舉辦的黑客馬拉松賽(Hackathon)將于北京阿里中心舉行,本屆 Hackathon 主席由阿里巴巴基礎設施網(wǎng)絡研發(fā)事業(yè)部高級技術專家劉洪強擔任。這場賽事一共吸引了來自世界各地的 8 個代表隊參加,角逐冠軍。
針對本次 Hackathon 如何賦能 AI 學術青年,以及阿里基礎設施網(wǎng)絡研發(fā)事業(yè)部的細節(jié),雷鋒網(wǎng) AI 開發(fā)者獨家訪問了劉洪強主席,并在不改變原意的情況下,將活動及采訪內(nèi)容整理如下。
雷鋒網(wǎng) AI 開發(fā)者:這次 ACM SIGCOMM 上的 Hackathon 的參賽主題是「Measuring and Debugging Real Network Systems」,為什么會選擇這個主題呢?這個主題對于行業(yè)或者現(xiàn)實生活都有哪些啟發(fā)?
劉洪強:SIGCOMM 是 ACM 在數(shù)據(jù)通信中的旗艦會議,所以 SIGCOMM 上面的 Hackathon 也是以「網(wǎng)絡」為主題。今年是 SIGCOMM Hackathon 舉辦的第二屆比賽,相較于上一屆更廣泛的網(wǎng)絡主題,這次我們選擇了更聚焦的「測量和調(diào)試真實的網(wǎng)絡系統(tǒng)」作為本屆比賽主題。
我們主要希望能夠通過這一主題,讓參賽者意識到當前的網(wǎng)絡系統(tǒng)中還存在著大量困難的問題有待解決,所以開發(fā)好的監(jiān)測工具和分析工具對提高網(wǎng)絡系統(tǒng)的整體穩(wěn)定性和性能至關重要。除此之外,我們還希望能夠通過這個主題讓計算機網(wǎng)絡和系統(tǒng)行業(yè)的人看到開發(fā)網(wǎng)絡測量和調(diào)試系統(tǒng)的價值和難度,提倡思考如何借助 AI 等新工具,從更高和更系統(tǒng)的層面了解現(xiàn)有的重要網(wǎng)絡系統(tǒng),從而為云計算等重要的基礎設施資源保駕護航。
雷鋒網(wǎng) AI 開發(fā)者:剛剛你提到的借助 AI 新工具,那么 AI 技術可以如何幫助解決這個主題所面臨的問題呢?
劉洪強:本次 Hackathon 中,參加者可以利用前沿的 AI 技術來對測量所收集的數(shù)據(jù)進行處理,這一方法能夠在一定程度上幫助我們發(fā)現(xiàn)工作人員難以發(fā)現(xiàn)的潛在問題。同時,本次 Hackathon 也鼓勵參加者能夠?qū)?AI 的計算集群和系統(tǒng)作為研究對象,來設計測量和調(diào)試的工具,通過深入了解 AI 訓練中的網(wǎng)絡瓶頸,進一步研究如何為 AI 系統(tǒng)設計更好的網(wǎng)絡。
雷鋒網(wǎng) AI 開發(fā)者:除了 AI 技術,參賽還需要用到哪些技術?比賽中,賽會方能夠提供相應的平臺或數(shù)據(jù)來輔助選手完成比賽嗎?
劉洪強:本次比賽中,賽會方提供了幾個題目供選手選擇,技術領域涉及遠程程序調(diào)用(RPC),RDMA 高速網(wǎng)絡,WiFi 網(wǎng)絡,4G LTE 網(wǎng)絡,以及深度學習訓練系統(tǒng)網(wǎng)絡。
其中,RPC 是遠程程序調(diào)用的簡稱,它是被大量應用于分布式系統(tǒng)中的網(wǎng)絡通信協(xié)議和接口的整體解決方案。它的特點就是將網(wǎng)絡底層的通信協(xié)議細節(jié)隱藏,讓應用程序在訪問和調(diào)用遠程資源的時候能夠像調(diào)用本地資源一樣方便。因此,RPC 是分布式系統(tǒng)開發(fā)的重要工具,它的性能和穩(wěn)定性對分布式系統(tǒng)整體的性能和穩(wěn)定性有著深刻的影響;
而 RDMA(Remote Direct Memory Access)是一種數(shù)據(jù)中心中的高速網(wǎng)絡解決方案。它的特點是將所有的傳輸層協(xié)議是現(xiàn)在硬件里,直接打通網(wǎng)卡和內(nèi)存之間的讀寫訪問,可以極大地提高網(wǎng)絡帶寬,實現(xiàn)超低延遲,節(jié)省服務器上 CPU 的使用量;
WiFi 網(wǎng)絡和 4G LTE 網(wǎng)絡則是我們?nèi)粘I钪杏玫降膬煞N基礎的無線接入網(wǎng)絡;而分布式深度學習則是人工智能的關鍵技術,它利用網(wǎng)絡實現(xiàn)多臺服務器互聯(lián),將更多的計算資源聯(lián)合投入一個任務的計算,計算單元之間靠高速的網(wǎng)絡進行大量通信交換計算結(jié)果,實現(xiàn)對 AI 訓練的極大加速。
同時,賽會方還提供了免費的阿里云計算資源,包括阿里云所能提供的所有類型的服務。如果有團隊要將自己的計算資源帶入會場,賽方也會提供場地、網(wǎng)絡和電力等支持。
雷鋒網(wǎng) AI 開發(fā)者:如果參賽選手要想在賽事中取得優(yōu)秀的成績,有哪些要點值得選手們參考嗎?
劉洪強:如果能夠解決賽會方提供的更難難度的題目,那么該選手取得優(yōu)秀成績的幾率將大大提高;同時,完成更多的題目也能夠取得更優(yōu)異的成績。另外,所有的團隊都會有 5 分鐘時間來講解他們的成果,團隊報告的質(zhì)量、完成效果以及創(chuàng)新度都會視為評分參考要點。
雷鋒網(wǎng) AI 開發(fā)者:目前,我們身邊有很多 Hackathon,本次 ACM SIGCOMM 上的 Hackathon 與其它(比如最近京東舉辦的 Hackathon)相比,最大的亮點是什么?
劉洪強:本次 Hackathon 的最大特點是它集中在了解和解決計算機網(wǎng)絡系統(tǒng)中的真實問題,并且這場比賽是由企業(yè)與 SIGCOMM 聯(lián)辦,因此比賽更偏向于學術研究方向,力在將開發(fā)和研究更充分的融合。
雷鋒網(wǎng) AI 開發(fā)者:那你認為怎樣的選題最適合通過 Hackathon 的形式來進行呢?
劉洪強:Hackathon 的題目一定要有實際意義,同時也可以對未解問題具有探索意義。另外,題目的范圍既要要有一定的專業(yè)范圍,避免主題太泛而缺乏比較的標準;同時也要有足夠的空間,來啟發(fā)參賽者發(fā)散思維進行思考和創(chuàng)新。
雷鋒網(wǎng) AI 開發(fā)者:你認為馬拉松賽事對開發(fā)者最大的鍛煉體現(xiàn)在哪里?
劉洪強:Hackathon 賽事對開發(fā)者最大的鍛煉是能夠從平時的工作中暫時解放出來,通過解決 Hackathon 的問題來重新思考他們所關注領域當前面臨的問題;同時,參賽者還能在短時間內(nèi)得出極具創(chuàng)新性和實用性的結(jié)果,在比賽中認識更多志同道合的人。
雷鋒網(wǎng) AI 開發(fā)者:在本次整個 Hackathon 的籌備過程中,賽會方都面臨了哪些挑戰(zhàn)呢?
劉洪強:主要挑戰(zhàn)有三點。
首先需要確定一個合適的題目,這個題目需要能夠足夠聚焦特定的專業(yè)背景,并且能夠有足夠大的空間供參賽者發(fā)揮。
第二就是能夠在這個大題目下確定出具體的挑戰(zhàn)題目供參賽選手選擇。因為這次 Hackathon 面向的對象包括所有對計算機網(wǎng)絡與系統(tǒng)感興趣的人,所以每個挑戰(zhàn)還要有不同難度的子挑戰(zhàn),這樣才可以讓不同背景的人參與。
最后是準備足夠的計算資源,并且保證選手在 Hackathon 當天也能流暢地訪問這些資源。
雷鋒網(wǎng) AI 開發(fā)者:能否結(jié)合你個人過去的參賽經(jīng)歷和我們談談參加比賽對于個人成長有哪些幫助?
劉洪強:我在 SIGCOMM 2018 也參加過 Hackathon,并且這次比賽也給我留下了非常深刻的印象;對我個人而言,主要收獲有兩點。
首先,通過對 Hackathon 的題目的了解,我能夠從側(cè)面了解到這個領域目前的狀態(tài),比如:什么「新技術、新工具」正在成為當前領域的主流,實際系統(tǒng)中有什么重要的問題需要解決,人們是如何思考這些問題等方面,我能夠有更準確的把握。
其次,在 Hackathon 的組隊和交流過程中,我交到了志同道合的朋友;而這些朋友,在之后的工作和生活中,有的成為了我的合作伙伴,有的成為了我的摯友,他們都對我的人生有著積極的影響。
雷鋒網(wǎng) AI 開發(fā)者:我們知道阿里有技術團隊、運營團隊、銷售團隊,但是很少聽到阿里基礎設施網(wǎng)絡研發(fā)事業(yè)部,能否跟我們介紹一下這個團隊的整體情況?
劉洪強:阿里網(wǎng)絡研發(fā)事業(yè)部是阿里云智能事業(yè)群中負責整個阿里經(jīng)濟體的網(wǎng)絡架構(gòu)設計、運營、研發(fā)和研究的部門。其職責范圍覆蓋了阿里的全球數(shù)據(jù)中心網(wǎng)絡、城域網(wǎng)、骨干網(wǎng)、邊緣網(wǎng)絡、光網(wǎng)絡和無線網(wǎng)絡。
雷鋒網(wǎng) AI 開發(fā)者:阿里網(wǎng)絡研發(fā)事業(yè)部的核心技術是什么呢?目前團隊都有哪些的研究成果或者技術成就,可以簡單向大家介紹一下嗎?
劉洪強:阿里基礎設施網(wǎng)絡研發(fā)事業(yè)部研發(fā)了多項國際領先的核心技術,例如高性能網(wǎng)絡、自研交換機、網(wǎng)絡智能化運營體系、IPv6 等等。通過系統(tǒng)化的技術創(chuàng)新,我們部門也為整個阿里經(jīng)濟體提供了非??煽俊㈧`活和高性價比的網(wǎng)絡。
圖 1 阿里云 NFV 網(wǎng)絡技術平臺
而在近幾年,阿里網(wǎng)絡研發(fā)事業(yè)部在研究上發(fā)展非常迅速。就在今年 SIGCOMM 上,阿里網(wǎng)絡研發(fā)事業(yè)部的兩篇研究成果被大會所收錄。
其中一篇介紹了阿里巴巴自研的新一代高速網(wǎng)絡擁塞控制協(xié)議(HPCC)。HPCC 利用了最新的交換芯片能力,將網(wǎng)絡擁塞延遲降低幾十倍至上百倍,同時擁有快速收斂,高效和高穩(wěn)定性等可以被理論證明的特性。
另一篇是業(yè)界首次實現(xiàn)的基于意圖語言驅(qū)動的 ACL(訪問控制)規(guī)則管理系統(tǒng)。該系統(tǒng)已經(jīng)在阿里的骨干網(wǎng)得到了應用,能夠?qū)崿F(xiàn)將骨干網(wǎng)的 ACL 操作變得簡單而不易出錯,將網(wǎng)絡 ACL 變更的計劃時間從幾周縮短為幾個小時。
雷鋒網(wǎng) AI 開發(fā)者:阿里網(wǎng)絡研發(fā)事業(yè)部的下一步發(fā)展計劃是什么呢?
劉洪強:網(wǎng)絡研發(fā)事業(yè)部未來計劃繼續(xù)推進國際化,隨著阿里經(jīng)濟體在全球業(yè)務的展開,提升阿里網(wǎng)絡在東南亞、歐洲、美洲的覆蓋面。
與此同時,我們會加大在技術上創(chuàng)新研發(fā)的力度,聚焦在未來 100G+的高性能網(wǎng)絡、自研機交換機、邊緣網(wǎng)絡、意圖驅(qū)動網(wǎng)絡、以及無線網(wǎng)絡(含 5G)等幾個關鍵領域。
雷鋒網(wǎng) AI 開發(fā)者:如果有一名 AI 學術青年希望能夠加入阿里網(wǎng)絡研發(fā)事業(yè)部,那么他需要具備哪些能力呢?
劉洪強:網(wǎng)絡研發(fā)事業(yè)部是一個高度技術密集型的部門,我們非常歡迎在網(wǎng)絡創(chuàng)新研究、硬件研發(fā)、架構(gòu)設計、操作系統(tǒng)、高性能網(wǎng)絡、可編程網(wǎng)絡、無線網(wǎng)絡等領域有專長的候選人加入。
而網(wǎng)絡智能化是未來發(fā)展的必然趨勢,AI 則是實現(xiàn)網(wǎng)絡智能化的核心手段。我們理想中的 AI 候選人,需要具備一定的網(wǎng)絡背景知識,兼具良好的開發(fā)能力和 AI 應用能力,并且不懼困難和挑戰(zhàn)。
SIGCOMM 是由 ACM SIGCOMM 組織舉辦的通信網(wǎng)絡領域的旗艦型會議,也是目前國際通信網(wǎng)絡領域的頂尖會議之一。SIGCOMM 2019 吸引了來自全球計算機通訊網(wǎng)絡研究人員、學者及學生將近 1200 人參加了此次會議。
此次會議議題廣泛,包括物聯(lián)網(wǎng)、云計算、人工智能和5G給全球所帶來的巨大影響。同時,會議將從更廣泛的網(wǎng)絡研究和治理的視角出發(fā),重新審視互聯(lián)網(wǎng)高速發(fā)展所帶來的緊迫挑戰(zhàn)。
多年來,世界頂尖的大學和科技公司在 SIGCOMM 上發(fā)表的論文奠定了人們對先進網(wǎng)絡技術的認知,同時眾多網(wǎng)絡通信領域的具有里程碑意義的著作均是通過 SIGCOMM 發(fā)布。不過,SIGCOMM 對論文的質(zhì)量要求極高,必須具有基礎性貢獻、前瞻性影響和堅實系統(tǒng)實現(xiàn)的論文才會被收錄,因此每年只錄用 30 篇左右。
今年其中的兩篇論文由中國企業(yè)阿里巴巴拿下,論文題目分別為《HPCC: High Precision Congestion Control》和《Safely and Automatically Updating In-Network ACL Configurations with Intent Language》。
圖 2 SIGCOMM 2019 大會現(xiàn)場
雷鋒網(wǎng) AI 開發(fā)者
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。