丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給汪思穎
發(fā)送

0

KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團(tuán)隊討教了他們的“成功方法論”

本文作者: 汪思穎 編輯:郭奕欣 2017-08-24 09:24
導(dǎo)語:熱愛技術(shù),經(jīng)驗豐富,邏輯嚴(yán)謹(jǐn),這是雷鋒網(wǎng) AI 科技評論眼中的Convolution團(tuán)隊。

雷鋒網(wǎng) AI 科技評論按:KDD 2017日前于加拿大落下帷幕。作為數(shù)據(jù)挖掘領(lǐng)域全球最高級別的國際會議,KDD 自帶光環(huán),不僅吸引無數(shù)業(yè)內(nèi)大牛,也引來媒體的爭相報導(dǎo)。會議期間,KDD Cup2017的頒獎禮也同期進(jìn)行。今年,這場頂級賽事的排行榜幾乎全被中國團(tuán)隊占領(lǐng),由微軟、美團(tuán)和北航聯(lián)合組成的Convolution團(tuán)隊更是一舉奪得兩個任務(wù)的雙料冠軍。

雷鋒網(wǎng) AI 科技評論第一時間聯(lián)系了冠軍團(tuán)隊隊長胡可,并詳細(xì)了解到其團(tuán)隊的背景、解決問題的方法,并對比賽進(jìn)行了相關(guān)討論。熱愛技術(shù),經(jīng)驗豐富,邏輯嚴(yán)謹(jǐn),這是雷鋒網(wǎng) AI 科技評論眼中的Convolution團(tuán)隊。

以下為雷鋒網(wǎng) AI 科技評論與胡可的訪談實錄。

團(tuán)隊背景

首先恭喜你們獲得KDD Cup 2017兩個任務(wù)的雙料冠軍,有何感想可以分享一下呢?

KDD Cup是工業(yè)界和學(xué)術(shù)界都很關(guān)注的一個比賽,每一屆KDD Cup的競爭都很激烈。這次比賽中我們也遇到了很多困難,很幸運(yùn)兩道題目都能拿到第一名。

你們的團(tuán)隊是如何組建起來的呢?為什么給團(tuán)隊取Convolution這個名字?能介紹一下團(tuán)隊各位成員的研究背景嗎?

我們很早就在技術(shù)社區(qū)里認(rèn)識,大家都對技術(shù)感興趣,經(jīng)常一起討論技術(shù)細(xì)節(jié)。給團(tuán)隊取Convolution這個名字也是機(jī)緣巧合,因為我們當(dāng)時正在做一些神經(jīng)網(wǎng)絡(luò)方面的嘗試。

我們團(tuán)隊有四名隊員:

胡可,香港中文大學(xué)機(jī)器學(xué)習(xí)方向碩士畢業(yè)?,F(xiàn)在微軟必應(yīng)廣告團(tuán)隊從事機(jī)器學(xué)習(xí)模型與算法研發(fā)。

陳歡,北京航空航天大學(xué)計算機(jī)碩士在讀,擅長NLP與特征工程。

黃攀,浙江大學(xué)計算機(jī)碩士畢業(yè),擅長模型分析與實現(xiàn)?,F(xiàn)在微軟必應(yīng)團(tuán)隊從事廣告算法研發(fā)。

燕鵬,美團(tuán)點(diǎn)評高級技術(shù)專家,喜歡用機(jī)器學(xué)習(xí)解決各類問題。

隊員都從事機(jī)器學(xué)習(xí)相關(guān)的工作與學(xué)習(xí),并且有豐富的大賽經(jīng)歷,比如隊員基本都獲得過Kaggle冠軍,也有隊員目前Kaggle全球排名第五。同時我們這方面的背景可以相互促進(jìn),合作產(chǎn)生更好的方案。

解決問題的方法論

今年的賽題分為兩個任務(wù),預(yù)測車輛從路口到收費(fèi)站的平均用時和預(yù)測高速收費(fèi)站車流量,在比賽中,大家是如何分工的呢?

比賽初期,我們以兩位同學(xué)為一組主要負(fù)責(zé)一道題目。在后期再將題目進(jìn)行互換,對對方的思路進(jìn)行補(bǔ)充。每位同學(xué)都有很強(qiáng)的技術(shù)探索能力,能對負(fù)責(zé)的部分獨(dú)擋一面。比如黃攀在交通時間預(yù)測題的特征工程與模型實現(xiàn)上做出了很多突破。

你們解決這兩個任務(wù)的具體步驟是什么樣的呢?

我們前期根據(jù)各自的技術(shù)積累討論,匯總出問題涉及到的技術(shù)點(diǎn)以及可能有潛力的方案。比賽中期更多地自由探索,盡可能地發(fā)散解決方案的技術(shù)點(diǎn)。最后充分融合各自方案,并收斂到幾個關(guān)鍵技術(shù)點(diǎn)共同提升解決。比如一開始就想以序列建模與用特征表達(dá)預(yù)測序列兩種方式分別嘗試解決時間序列問題,相當(dāng)于從模型與特征兩種角度,最后采用是這兩種方法的融合??紤]到這個問題本身的特征體系特點(diǎn)以及模型的表達(dá)能力,我們選擇GBDT和神經(jīng)網(wǎng)絡(luò)模型,并對模型的損失函數(shù)進(jìn)行改進(jìn),更適合這個比賽的評價指標(biāo)。

這兩個任務(wù)比較起來,哪個任務(wù)更復(fù)雜呢?

第二題比較早地發(fā)現(xiàn)了規(guī)律,很早確立了領(lǐng)先優(yōu)勢。但后來我們發(fā)現(xiàn)第二題的經(jīng)驗在第一題上并不能取得同樣的收益,我們在第一題上做了很多改進(jìn)之后才追上來。我覺得針對具體問題case by case地去研究,提出適合具體問題的解決方案非常重要。

您認(rèn)為今年的高速路預(yù)測的賽題與之前一些機(jī)場、公路流量預(yù)測的賽題相比,差異點(diǎn)和難點(diǎn)在哪里?側(cè)重需要考慮哪些問題?

很多機(jī)器學(xué)習(xí)的問題都需要一些領(lǐng)域的知識來輔助解決,對于每一個具體的問題,數(shù)據(jù)的分布不會完全一致,最終比賽獲得高分的關(guān)鍵還是一些機(jī)器學(xué)習(xí)的技巧和經(jīng)驗。比如,這次比賽數(shù)據(jù)方差比較大,不能完全通過增加特征解決這個問題,相對暴力地迭代實驗有可能導(dǎo)致過擬合。因此需要更多數(shù)據(jù)分析來引導(dǎo)實驗,并巧妙構(gòu)造驗證集來增加解決方案的穩(wěn)定性與泛化能力。

在比賽過程中你們還碰到了哪些問題?是如何解決的?

我們在中后期遇到了瓶頸,主要表現(xiàn)為模型提升困難并且在多種驗證集中表現(xiàn)不穩(wěn)定,我們放棄了有過擬合風(fēng)險的提高模型復(fù)雜度的提升方式,轉(zhuǎn)而構(gòu)建更多模型復(fù)雜度不那么高的子模型解決問題。從誤差分解的角度,我們沒有特別追求bias減少,而是想辦法降低variance。

圍繞比賽的相關(guān)討論

為比賽所設(shè)計的系統(tǒng)和實際應(yīng)用的系統(tǒng)存在哪些異同?比賽中的系統(tǒng)與實際應(yīng)用系統(tǒng)有哪些關(guān)聯(lián)性?

異同點(diǎn):一方面,實際系統(tǒng)中可用的信息更多,會更復(fù)雜。另一方面,比賽追求算法極致,現(xiàn)實中會在精度和效率上做一個權(quán)衡。比如,比賽有可能會采用較多模型進(jìn)行融合,而實際系統(tǒng)經(jīng)常采用少量模型進(jìn)行融合。但實際中構(gòu)造少量模型的思想與比賽是一致的。

兩者間的關(guān)聯(lián):在比賽中,產(chǎn)生了一些優(yōu)秀的模型或方案運(yùn)用于實際系統(tǒng),如KDD Cup 2012產(chǎn)出了XGBOOST與FFM的原型,阿里天池14年推薦比賽top隊伍的方案在“雙十一”活動中挑戰(zhàn)線上系統(tǒng)取得成功。 

以往KDD Cup有很多任務(wù)集中于推薦系統(tǒng)的設(shè)計,近年來逐漸向其它更具體的實際問題轉(zhuǎn)變,比如MOOC逃課率檢測,還有今年圍繞交通內(nèi)容而設(shè)計的題目。那么您認(rèn)為以今年為例,KDD Cup對能力的考察更側(cè)重于哪些方面?

隨著機(jī)器學(xué)習(xí)的認(rèn)知程度越來越高,越來越多的領(lǐng)域開始嘗試使用機(jī)器學(xué)習(xí)技術(shù)解決現(xiàn)實問題。早年KDD Cup著重于解決互聯(lián)網(wǎng)行業(yè)中的典型問題,近年來開始嘗試機(jī)器學(xué)習(xí)技術(shù)在教育,交通等傳統(tǒng)行業(yè)的應(yīng)用。這對選手的要求也隨之提高,需要選手具備快速對新問題進(jìn)行建模的能力。

今年的20強(qiáng)幾乎全被中國隊伍包攬,在比賽過程中你們有遇到過哪些實力強(qiáng)勁的對手呢?覺得團(tuán)隊獲勝的原因有哪些?

這次KDD Cup是歷年參加人數(shù)最多的一次,高手云集,其中也包括KDD Cup多年的冠軍隊伍臺灣大學(xué),他們這次也曾一度取得領(lǐng)先,帶給了我們很大壓力。

我認(rèn)為這次獲勝主要取決于這些因素:一是我們隊伍的成員都從事機(jī)器學(xué)習(xí)工作,對技術(shù)有很高的熱情,并且各自有比較豐富的比賽經(jīng)驗。二是我們在做這些機(jī)器學(xué)習(xí)項目和比賽的過程中,向同事和其他隊伍學(xué)到了很多有趣的建模和分析的思路。第三是因為非常幸運(yùn)。

如果要為下一年的KDD Cup做準(zhǔn)備,您有什么建議和比賽心得可以分享?

我建議有時間可以加強(qiáng)機(jī)器學(xué)習(xí)理論的學(xué)習(xí),并盡可能地將理論與實踐相結(jié)合。 

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團(tuán)隊討教了他們的“成功方法論”

分享:
相關(guān)文章

編輯

關(guān)注AI學(xué)術(shù),例如論文
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說