0
本文作者: 汪思穎 | 編輯:郭奕欣 | 2017-08-15 19:30 | 專題:KDD 2017 |
雷鋒網(wǎng) AI 科技評(píng)論按:從1997年至今,KDD Cup已有二十年歷史。日前,第23屆KDD大會(huì)在加拿大召開(kāi),會(huì)上,KDD Cup2017優(yōu)勝者將進(jìn)行成果展示。
2017年8月13-17日,第23屆KDD大會(huì)在加拿大哈利法克斯召開(kāi),雷鋒網(wǎng)AI科技評(píng)論也在前線帶來(lái)第一手報(bào)道。從7月到8月,圍繞KDD,熱點(diǎn)不斷。先是加拿大西蒙弗雷澤大學(xué)計(jì)算機(jī)學(xué)院裴健博士當(dāng)選ACM SIGKDD 新一任主席,緊接著,官方宣布裴健博士榮獲 2017 SIGKDD 創(chuàng)新獎(jiǎng)、香港科技大學(xué)教授楊強(qiáng)博士榮獲 2017 SIGKDD 杰出服務(wù)獎(jiǎng)。大會(huì)還沒(méi)開(kāi)始就吸引了不少目光。
當(dāng)然,除了裴健博士和楊強(qiáng)博士的杰出表現(xiàn),還有一個(gè)議程也讓這屆大會(huì)的關(guān)注量倍增——加拿大時(shí)間8月16日,KDD Cup2017優(yōu)勝者將在會(huì)議上進(jìn)行成果展示。由微軟、美團(tuán)聯(lián)合北京航空航天大學(xué)的Convolution團(tuán)隊(duì)在KDD Cup 2017的兩項(xiàng)任務(wù)中包攬第一。
兩項(xiàng)任務(wù)的前三名名單如下:
KDD Cup迎來(lái)第二十年
從1997年舉辦至今,這屆賽事已迎來(lái)第20個(gè)年頭。作為目前數(shù)據(jù)挖掘領(lǐng)域最有影響力、最高水平的國(guó)際頂級(jí)賽事,KDD Cup每年都會(huì)吸引世界數(shù)據(jù)挖掘界的頂尖專家、學(xué)者、工程師、學(xué)生等前來(lái)參賽。它被譽(yù)為大數(shù)據(jù)領(lǐng)域的“奧運(yùn)會(huì)”。
KDD Cup 2017 今年的任務(wù)是交通領(lǐng)域賽題,分兩個(gè)任務(wù):
Task 1: To estimate the average travel time from designated intersections to tollgates(預(yù)測(cè)車輛從路口到收費(fèi)站的平均用時(shí))
Task 2: To predict average tollgate traffic volume(高速收費(fèi)站車流量預(yù)測(cè))
賽程共計(jì)兩輪,第一輪需要選手在20天內(nèi)完成預(yù)測(cè)算法并提交測(cè)試結(jié)果,第二輪則會(huì)更換測(cè)試數(shù)據(jù)并要求選手在一周內(nèi)完成新一輪的結(jié)果提交。
高速公路收費(fèi)站是交通網(wǎng)絡(luò)中眾所周知的瓶頸。如果可以提前預(yù)測(cè)接下來(lái)一小時(shí)的交通擁堵?tīng)顩r,那么交通管理部門可以及時(shí)采取措施進(jìn)行上游路口的流量誘導(dǎo)和控制。KDD Cup 2017希望參賽者可以設(shè)計(jì)一套預(yù)測(cè)交通流量和車輛到達(dá)時(shí)間的算法,用算法和數(shù)據(jù)來(lái)賦能交通領(lǐng)域,減少擁堵的發(fā)生。
2017年年初,KDD Cup組委會(huì)宣布采納阿里云交通領(lǐng)域賽題時(shí),曾有新聞報(bào)導(dǎo):本次賽題源自阿里云人工智能ET在交通領(lǐng)域?qū)嵤┑陌咐?,阿里云賽題負(fù)責(zé)人閔萬(wàn)里說(shuō),技術(shù)垂直化一直是阿里云的重要戰(zhàn)略。在交通領(lǐng)域,我們打造了路況預(yù)測(cè),信號(hào)燈優(yōu)化控制一系列前沿項(xiàng)目,這些實(shí)踐證明了本次賽題的技術(shù)可行性和業(yè)務(wù)實(shí)用性。
亮點(diǎn)之一:強(qiáng)應(yīng)用背景
縱觀KDD Cup歷史,不只是2017,近年來(lái),許多試題都有很強(qiáng)的應(yīng)用背景。
2011年的主題是理解節(jié)奏韻律,預(yù)測(cè)音樂(lè)評(píng)分。比賽的數(shù)據(jù)集是雅虎音樂(lè)提供的超過(guò)1百萬(wàn)匿名用戶的3億條評(píng)分?jǐn)?shù)據(jù),這些評(píng)分分別針對(duì)歌曲、專輯、藝術(shù)家和音樂(lè)流派。比賽有兩個(gè)任務(wù),一是準(zhǔn)確的預(yù)測(cè)用戶的評(píng)分,二是區(qū)分用戶喜愛(ài)的歌曲與其他歌曲。
2012年的任務(wù)一是根據(jù)騰訊微博中的用戶屬性、SNS社交關(guān)系、在社交網(wǎng)絡(luò)中的互動(dòng)記錄等,來(lái)預(yù)測(cè)接下來(lái)最有可能被用戶接受的推薦item列表。任務(wù)二是廣告的點(diǎn)擊率預(yù)估,提供用戶在騰訊搜索的查詢?cè)~、展現(xiàn)的廣告信息、廣告的相對(duì)位置和用戶點(diǎn)擊情況等,來(lái)預(yù)測(cè)后續(xù)時(shí)間用戶對(duì)廣告的點(diǎn)擊情況。
連續(xù)兩年,比賽的主題都為推薦系統(tǒng)。對(duì)用戶而言,每天面對(duì)海量的資訊服務(wù)信息時(shí),如何快速找到自己感興趣的內(nèi)容是件耗費(fèi)時(shí)間和精力的事情。對(duì)于企業(yè)而言,手握海量資源,如何挖缺數(shù)據(jù)中的潛在價(jià)值從而留住用戶,也是一種極大的挑戰(zhàn)。個(gè)性化推薦系統(tǒng)則是解決上述問(wèn)題的有效工具。
2015年,KDD Cup的主題是預(yù)測(cè)學(xué)生在學(xué)堂在線這個(gè)全中國(guó)最大的慕課平臺(tái)中的逃課率。MOOC在線學(xué)習(xí)平臺(tái)上學(xué)生的逃課率極高,因此預(yù)測(cè)他們接下來(lái)是否會(huì)選擇逃課將對(duì)保持和激勵(lì)學(xué)生的學(xué)習(xí)積極性十分有益,參賽者需要基于用戶個(gè)人行為預(yù)測(cè)接下來(lái)10天內(nèi)他們的逃課幾率。
知乎上多名網(wǎng)友認(rèn)為,2015年的比賽題目“挺有意思,也比較有實(shí)際意義”,有網(wǎng)友認(rèn)為這個(gè)題目的設(shè)置跳脫了推薦大框架的桎梏,更具創(chuàng)新性。
此外,教育部于2015年4月出臺(tái)《關(guān)于加強(qiáng)高等學(xué)校在線開(kāi)放課程建設(shè)應(yīng)用與管理的意見(jiàn)》時(shí)曾表明,教育部正密切關(guān)注世界范圍內(nèi)迅速興起的大規(guī)模在線開(kāi)放課程(MOOC)等新型在線開(kāi)放課程的發(fā)展,將積極推動(dòng)大規(guī)模在線開(kāi)放課程與高等教育教學(xué)改革的大討論。
亮點(diǎn)之二:國(guó)內(nèi)企業(yè)越來(lái)越多的參與
當(dāng)然,除了試題的縱深應(yīng)用,盤點(diǎn)近幾年比賽的承辦方,國(guó)內(nèi)企業(yè)出現(xiàn)的頻率也越來(lái)越高。
上文就已經(jīng)提到,2017年的比賽由阿里云承辦。阿里云創(chuàng)立于2009年,隸屬于阿里巴巴集團(tuán)。從誕生到現(xiàn)在,阿里云目前覆蓋歐洲、中東、日本和澳洲,本月4號(hào),阿里云剛剛與澳門政府簽署合作城市大腦計(jì)劃。值得一體的是,阿里巴巴集團(tuán)也是今年KDD大會(huì)的白金贊助商。
2014年的比賽由學(xué)堂在線(Xuetangx.com)承辦。學(xué)堂在線是以清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系為主體的開(kāi)發(fā)團(tuán)隊(duì)基于OpenEdX平臺(tái)開(kāi)發(fā)的,于2013年10月10日正式上線,可向全球用戶提供MOOC課程。2015年5月,清華大學(xué)宣布依托學(xué)堂在線啟動(dòng)國(guó)內(nèi)首個(gè)基于混合式教學(xué)模式的學(xué)位項(xiàng)目——“數(shù)據(jù)科學(xué)與工程”專業(yè)碩士項(xiàng)目。目前,學(xué)堂在線已是教育部在線教育研究中心的研究交流和成果應(yīng)用平臺(tái)。
而2012年的KDD CUP則由騰訊協(xié)辦,試題也是基于騰訊微博海量的數(shù)據(jù)集。目前騰訊兩個(gè)壟斷性的社交工具——微信、QQ中,龐大的用戶基數(shù)與海量的數(shù)據(jù),都有待去慢慢挖掘和利用。
上圖來(lái)自于網(wǎng)絡(luò),從中可以看出,2005-2010年的舉辦方中,還沒(méi)有出現(xiàn)過(guò)中國(guó)企業(yè)的身影。
這一系列承辦團(tuán)隊(duì)也從一個(gè)方面印證了國(guó)內(nèi)企業(yè)的科研實(shí)力越來(lái)越強(qiáng)。據(jù)業(yè)內(nèi)人士介紹,賽事的承辦者需提供極有前沿應(yīng)用價(jià)值的賽題和大規(guī)模數(shù)據(jù)作為挖掘樣本。換言之,要想承辦這場(chǎng)“奧運(yùn)會(huì)”,如果沒(méi)有深厚的學(xué)術(shù)積累和行業(yè)實(shí)踐,是完全不可能的。
亮點(diǎn)之三:中國(guó)團(tuán)隊(duì)越來(lái)越靠前的排名
除了看到國(guó)內(nèi)企業(yè)越來(lái)越雄厚的實(shí)力,雷鋒網(wǎng)AI科技評(píng)論也了解到,中國(guó)團(tuán)隊(duì)也接二連三拿到不俗的表現(xiàn)。
早在2004、2005連續(xù)兩年,香港科技大學(xué)教授、IEEE Fellow楊強(qiáng)就引導(dǎo)其團(tuán)隊(duì)連續(xù)兩年拿下KDD Cup比賽冠軍。
2011年的任務(wù)一預(yù)測(cè)用戶的評(píng)分中,上海交通大學(xué)的InnerPeace團(tuán)隊(duì)獲得季軍,2012年的任務(wù)一預(yù)測(cè)用戶偏好item中,同樣來(lái)自上海交通大學(xué)的ACMClass@SJTU 團(tuán)隊(duì)奪得冠軍。
2015年的比賽冠軍由多國(guó)軍團(tuán)——“the Intercontinental Ensemble”獲得。在這支冠軍隊(duì)伍中,有兩位中國(guó)的數(shù)據(jù)科學(xué)家,分別來(lái)自清華大學(xué)和網(wǎng)易公司。
而在2017年,中國(guó)團(tuán)隊(duì)更是幾乎包攬前20名。
圖為2017年KDD Cup得分排行榜
雷鋒網(wǎng)AI科技評(píng)論總結(jié):縱觀KDD Cup20年的歷史,2010年之前,鮮少出現(xiàn)國(guó)內(nèi)企業(yè)和學(xué)界的身影,而在2010之后,騰訊、清華、阿里一個(gè)一個(gè)相繼出現(xiàn)。此外,在比賽中,中國(guó)團(tuán)隊(duì)的影響力也與日俱增。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專題其他文章