1
本文作者: 李尊 | 2016-11-03 11:57 |
近日在美國Indianapolis舉行的ACM CIKM Cup 2016中,來自中國阿里巴巴集團(tuán)搜索事業(yè)部Natural Artificial Intelligence團(tuán)隊(duì)在獲得了Personalized E-Commerce Search Challenge項(xiàng)目冠軍。
CIKM全稱是The ACM Conference on Information and Knowledge Management,是信息檢索和數(shù)據(jù)挖掘領(lǐng)域的全球頂級學(xué)術(shù)會議,由美國計(jì)算機(jī)協(xié)會(ACM)主辦。
今年CIKM Cup 2016競賽題目有:
跨設(shè)備實(shí)體連接(Cross-Device Entity Linking Challenge)
個性化電商搜索排序(Personalized E-Commerce Search Challenge)
跨設(shè)備實(shí)體連接(Cross-Device Entity Linking Challenge)
當(dāng)下建立準(zhǔn)確的用戶身份已是廣告公司一個非常困難和重要的問題,在這個過程中最關(guān)鍵的任務(wù)是在多個設(shè)備尋找相同的用戶信息,整合他們的數(shù)字足跡進(jìn)行更精準(zhǔn)的分析。
跨設(shè)備實(shí)體連接(Cross-Device Entity Linking Challenge)為學(xué)術(shù)界和工業(yè)界的研究人員提供了一個獨(dú)特的機(jī)會,來解決這個具有挑戰(zhàn)性的任務(wù)。
個性化電商搜索排序(Personalized E-Commerce Search Challenge)
個性化電商搜索排序(Personalized E-Commerce Search Challenge)為學(xué)術(shù)界和工業(yè)界的研究人員提供了一個獨(dú)特的機(jī)會,他們可以用來測試新的電子商務(wù)個性化搜索方法以及鞏固現(xiàn)有工作成果。
這項(xiàng)挑戰(zhàn)的獨(dú)特之處在于:
(1)釋出搜索記錄和瀏覽日志,過去只有搜索記錄。
(2)專注于電子商務(wù)搜索,因此有交易數(shù)據(jù)和獨(dú)特的(探索性)搜索行為模式。
(3)提供產(chǎn)品圖像,允許通過視覺特性來搜索排名實(shí)驗(yàn)。
其中,阿里團(tuán)隊(duì)獲得的是Personalized E-Commerce Search Challenge項(xiàng)目冠軍,該項(xiàng)目中主辦方提供了來自 DIGINETICA及其合作伙伴提供的用戶搜索、商品數(shù)據(jù)、交易信息(匿名)以及一個大型的產(chǎn)品圖像數(shù)據(jù)集。
競賽目標(biāo)是針對搜索引擎的召回結(jié)果進(jìn)行相關(guān)性打分,并基于打分進(jìn)行排序,排序結(jié)果越接近理想值越好。相比主辦方提供的搜索排序基準(zhǔn)數(shù)據(jù),來自阿里巴巴的參賽團(tuán)隊(duì)提升了21.28%。
在這次比賽中,阿里團(tuán)隊(duì)將相關(guān)方法整理發(fā)布了題為Ensemble Methods for Personalized E-Commerce SearchChallenge at CIKM Cup 2016的文章。
在文章中,阿里團(tuán)隊(duì)表示主要使用了集成方法,以及邏輯回歸、決策樹、SVM以及深度模型等。
據(jù)AI科技評論了解,目前集成方法(Ensemble Methods)正當(dāng)紅,如Kaggle平臺上面的比賽幾乎都是用多個模型來集成來獲取更好的成績。
常見的集成方法(Ensemble Methods)有這么幾種:
Bagging:使用訓(xùn)練數(shù)據(jù)的不同隨機(jī)子集來訓(xùn)練每個 Base Model,最后進(jìn)行每個 Base Model 權(quán)重相同的 Vote。
Boosting:迭代地訓(xùn)練 Base Model,每次根據(jù)上一個迭代中預(yù)測錯誤的情況修改訓(xùn)練樣本的權(quán)重。
Blending:用不相交的數(shù)據(jù)訓(xùn)練不同的 Base Model,將它們的輸出?。訖?quán))平均。
Stacking:劃分訓(xùn)練數(shù)據(jù)集為兩個不相交的集合,在第一個集合上訓(xùn)練多個學(xué)習(xí)器,在第二個集合上測試這幾個學(xué)習(xí)器,把第三步得到的預(yù)測結(jié)果作為輸入,把正確的回應(yīng)作為輸出,訓(xùn)練一個高層學(xué)習(xí)器。
邏輯回歸(Logistic Regression)是一種強(qiáng)大的統(tǒng)計(jì)方法,它能建模出一個二項(xiàng)結(jié)果與一個(或多個)解釋變量。它通過估算使用邏輯運(yùn)算的概率,測量分類依賴變量和一個(或多個)獨(dú)立的變量之間的關(guān)系,這是累積的邏輯分布情況。
決策樹是一個決策支持工具,它使用樹形圖或決策模型以及序列可能性。包括各種偶然事件的后果、資源成本、功效。下圖展示的是它的大概原理:
SVM(Support Vector Machine)是二元分類算法。給定一組2種類型的N維的地方點(diǎn),SVM(Support Vector Machine)產(chǎn)生一個(N - 1)維超平面到這些點(diǎn)分成2組。假設(shè)你有2種類型的點(diǎn),且它們是線性可分的。 SVM(Support Vector Machine)將找到一條直線將這些點(diǎn)分成2種類型,并且這條直線會盡可能地遠(yuǎn)離所有的點(diǎn)。
在文章最后,阿里團(tuán)隊(duì)表示這次獲得Personalized E-Commerce Search Challenge項(xiàng)目冠軍主要是以下三個主要因素:
數(shù)據(jù)架構(gòu)(data construction)
特征工程(feature engineering)
集成建模(ensemble modeling)
AI科技評論君認(rèn)為,這次ACM CIKM Cup 2016比賽之前阿里的團(tuán)隊(duì)在廣義的搜索那塊相對沒有那么有名。但由于其天生電商屬性,讓它在情投意合的CIKM Cup 2016大賽中個性化電商搜索排序(Personalized E-Commerce Search Challenge)部分正好一展身手,其實(shí)是歸功于其多年的技術(shù)沉淀所致。
在這次ACM CIKM Cup 2016決賽中,阿里巴巴團(tuán)隊(duì)使用了集成方法,以及邏輯回歸、決策樹、SVM以及深度模型等,融合了多種方法,證明了其在這方面的實(shí)力。也希望阿里強(qiáng)大的計(jì)算能力和數(shù)據(jù)能力在未來能改變更多的行業(yè),讓數(shù)據(jù)產(chǎn)生更大的價值。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。