0
本文作者: camel | 2017-12-27 11:39 |
雷鋒網(wǎng) AI 科技評(píng)論按:2017 年 12 月 22-24 日,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦的第 87 期 CCF 學(xué)科前沿講習(xí)班(CCF Advanced Disciplines Lectures,簡(jiǎn)稱 ADL)在北京中國(guó)科學(xué)院計(jì)算技術(shù)研究所成功舉辦,雷鋒網(wǎng)作為獨(dú)家合作媒體,進(jìn)行了全程報(bào)道。
本次講習(xí)班的主題為《社交網(wǎng)絡(luò)與數(shù)據(jù)挖掘》。社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘是計(jì)算機(jī)學(xué)科相關(guān)研究中的熱點(diǎn),具體研究涵蓋理論、關(guān)鍵技術(shù)以及互聯(lián)網(wǎng)核心應(yīng)用等各個(gè)應(yīng)用。
本次講習(xí)班邀請(qǐng)到了一系列的學(xué)界大牛,包括:
韓家煒——UIUC 教授,ACM/IEEE Fellow
Philip S Yu——伊利諾伊大學(xué)芝加哥分校特聘教授,清華大學(xué)數(shù)據(jù)科學(xué)院院長(zhǎng),ACM/IEEE 會(huì)士
Wei Wang——UCLA 教授,KDD 2016 Service Award
胡祥恩——孟菲斯大學(xué)教授,華中師范大學(xué)教授、心理學(xué)院院長(zhǎng)
James A. Evans——芝加哥大學(xué)社會(huì)學(xué)系教授
唐杰——清華大學(xué)副教授
沈華偉——中科院計(jì)算所研究員
石川——北京郵電大學(xué)教授
宋國(guó)杰——北京大學(xué)副教授
崔鵬——清華大學(xué)副教授
劉知遠(yuǎn)——清華大學(xué)助理教授
趙鑫——中國(guó)人民大學(xué)副教授
楊洋——浙江大學(xué)助理教授
三天的時(shí)間里,在社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘領(lǐng)域覆蓋的范圍內(nèi),13位老師分別講述了一個(gè)或幾個(gè)不同的研究方向,可謂場(chǎng)場(chǎng)干貨。尤其是韓家煒教授和Philip教授兩位學(xué)界大牛,從他們的報(bào)告可以看出,雖然他們講的概念不同,用的方法不同,但是他們做的方向基本一致,兩位學(xué)界巨擘的研究或許也代表了數(shù)據(jù)挖掘領(lǐng)域當(dāng)前的一個(gè)方向。
下面我們來回顧一下本次講習(xí)班的主要內(nèi)容(按分享時(shí)間順序總結(jié),排名不分先后)。
Philip 教授作為數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)人物,在報(bào)告中詳細(xì)闡述了他多年來所倡導(dǎo)的一種概念——Broad Learning(廣度學(xué)習(xí))。
他認(rèn)為在大數(shù)據(jù)的時(shí)代,我們不僅需要深度學(xué)習(xí),更需要廣度學(xué)習(xí)。大數(shù)據(jù)并不是每個(gè)數(shù)據(jù)都很大或者都很復(fù)雜,除了大數(shù)據(jù)外還有很多數(shù)據(jù)集可以利用。在大數(shù)據(jù)時(shí)代各種各樣的數(shù)據(jù)都是可以利用的,為了更好地利用這些數(shù)據(jù),我們需要定義和獲取相關(guān)的有用數(shù)據(jù),然后設(shè)計(jì)一種模型將異質(zhì)數(shù)據(jù)源融合成起來,再?gòu)倪@些數(shù)據(jù)源中挖掘信息。
廣度學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別在于,深度學(xué)習(xí)的「深」來源于模型層數(shù),廣度學(xué)習(xí)的「廣」來源于數(shù)據(jù)以及模型的多樣。
根據(jù)對(duì) Broad Learning 的考慮,Philip 認(rèn)為廣度學(xué)習(xí)大致分為三類:
1)對(duì)同一個(gè)實(shí)體上的不同類型信息進(jìn)行處理,這包括 multi-view,multi-model、multi-source Learning;
2)對(duì)不同但相似的實(shí)體上的信息的處理,這包括 transfer learning;
3)對(duì)通過復(fù)雜網(wǎng)絡(luò)關(guān)系相關(guān)的不同類型實(shí)體的信息進(jìn)行處理,這包括異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network,HIN)融合。
Philip 教授認(rèn)為 Broad Learning 的關(guān)鍵任務(wù)有兩點(diǎn):1、信息融合;2、知識(shí)發(fā)現(xiàn)。而其挑戰(zhàn)則是,怎么融合以及怎么挖掘知識(shí)?因?yàn)楝F(xiàn)在信息融合的方法會(huì)隨著不同的數(shù)據(jù)而變,此外在特定的知識(shí)發(fā)現(xiàn)任務(wù)中并不是所有的數(shù)據(jù)都是有用的。
隨后 Philip 教授通過三個(gè)例子來詳細(xì)闡述 Broad Learning 的概念,分別為:POI 預(yù)測(cè);跨社交網(wǎng)絡(luò)平臺(tái)的知識(shí)融合;地點(diǎn)預(yù)測(cè)。
唐杰在講座中首先分析了什么是社交網(wǎng)絡(luò),以及社交網(wǎng)絡(luò)的發(fā)展歷史;隨后他講解了如何做社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘的研究、模型及應(yīng)用。
唐杰認(rèn)為社交網(wǎng)絡(luò)就是由一組個(gè)人(節(jié)點(diǎn))組成的圖形,并由一個(gè)或多個(gè)相互依賴(「邊」)聯(lián)系起來。這是一個(gè)通過收集和分析大規(guī)模數(shù)據(jù)來揭示個(gè)人或社會(huì)行為模式的領(lǐng)域。
唐杰認(rèn)為若想理解社交網(wǎng)絡(luò)是什么,就需要理解整個(gè) internet 的發(fā)展。Internet 的發(fā)展主要有三個(gè)階段。在信息時(shí)代 1.0 時(shí),網(wǎng)絡(luò)就是由一系列頁面(文檔)和頁面上的鏈接構(gòu)成的一個(gè)結(jié)構(gòu)。第一個(gè)時(shí)代一方面越來越多的傳統(tǒng)行業(yè)不斷地加入,于是產(chǎn)生了大數(shù)據(jù);同時(shí)還伴隨著產(chǎn)生了云計(jì)算。在信息時(shí)代 2.0,用戶加入了網(wǎng)絡(luò)當(dāng)中,「今日頭條」就是這方面典型的應(yīng)用。在信息時(shí)代 3.0,用戶開始在網(wǎng)絡(luò)上了,用戶之間形成了交互,這就形成了信息空間和用戶空間,通過兩個(gè)空間信息的融合將產(chǎn)生智能。
有了數(shù)據(jù),怎么去發(fā)現(xiàn)并充分利用大數(shù)據(jù)的價(jià)值,則需要新型數(shù)據(jù)挖掘和分析方法,以能夠從非結(jié)構(gòu)化數(shù)據(jù)中獲得知識(shí)和洞察力。
關(guān)于社交網(wǎng)絡(luò)研究的歷史,唐杰從 1967 年 Milgram 提出的六度空間講起,并介紹了 Weak Tie(1973)、鄧巴數(shù)(1992)、結(jié)構(gòu)洞(1995)、HITS(1997)、小世界(1998)、Scale Free(1999)、Community Detection(2002)、Link Prediction(2005)、Spread of Obesity(2007)、Social Influence Analysis(2009)等。
隨后唐杰以如何將 AI(「小木」)應(yīng)用到慕課以及如何通過手機(jī)發(fā)紅包的數(shù)據(jù)研究社會(huì)現(xiàn)象兩個(gè)具體案例,講述了如何做社交網(wǎng)絡(luò)的問題研究。
在社交網(wǎng)絡(luò)研究的計(jì)算模型方面,唐杰以「Unifying Network Embedding」為主題,介紹了 DeepWalk, LINE, PTE, and node2vec 以及 NetMF 等方法。
最后唐杰以他近期所做的研究 AMiner 為例詳細(xì)講述社交網(wǎng)絡(luò)的研究如何應(yīng)用到實(shí)際問題當(dāng)中。他還介紹了一些有意思的應(yīng)用,包括預(yù)測(cè)紅包流向、學(xué)堂在線伴讀機(jī)器人「小木」。
宋國(guó)杰首先介紹了社交網(wǎng)絡(luò)最大化的基本背景知識(shí),然后對(duì)「影響最大化」做出了定義,并舉出兩個(gè)有代表性的算法研究和兩個(gè)他們做的一些工作。最后總結(jié)了一些該領(lǐng)域的未來方向。
所謂擴(kuò)散就是某個(gè)事物在社會(huì)系統(tǒng)的成員中通過某種渠道隨著時(shí)間而不斷有更多的人受到影響,用病毒的傳播可以更好地理解這個(gè)概念,例如 SARS 的爆發(fā)、電腦蠕蟲等。而在做社交網(wǎng)絡(luò)的人眼中,類似地就是去研究信息如何在社交網(wǎng)絡(luò)平臺(tái)中進(jìn)行傳播,以及如何才能做到傳播影響力的最大化(以便做廣告等)。
影響最大化一般可以分成幾個(gè)的模型,例如離散時(shí)間模型、連續(xù)時(shí)間模型、競(jìng)爭(zhēng)擴(kuò)散模型或者其他諸如流行病傳播模型、投票模型等。其中在離散時(shí)間模型大類中 Threshold Model 和 Cascade Mode 兩個(gè)模型最為基本。
當(dāng)給定一個(gè)模型時(shí),最優(yōu)化的問題有例如:
1、該如何選擇一系列用戶,給他們一些打折券,最后能使更多的用戶受到影響?
2、該選擇那些人群去接種疫苗,能夠最小化傳染?
3、如果有一些傳感器,該如何放置它們以能加速檢測(cè)到傳染病?
在研究的算法部分,宋國(guó)杰詳細(xì)介紹了 Lazy Evaluation 算法和 MIA Heuristic 算法。
隨后宋國(guó)杰介紹了他們做的四項(xiàng)工作,分別為:
1、如何降低影響力計(jì)算所消耗的成本;
2、如何加速收斂過程;
3、當(dāng)不同信息傳播時(shí)會(huì)發(fā)生什么?
4、當(dāng)動(dòng)態(tài)社會(huì)網(wǎng)絡(luò)中我們會(huì)遇到什么。
最后宋國(guó)杰說,在實(shí)際企業(yè)應(yīng)用中并不一定會(huì)需要效率更高的算法,而是傾向于使用比較成熟、穩(wěn)定的算法。因此如何在具體的場(chǎng)景中找到好的應(yīng)用點(diǎn),是驅(qū)動(dòng)這個(gè)方面進(jìn)一步的研究的關(guān)鍵之處。
趙鑫主要從應(yīng)用的視角來看社交媒體平臺(tái)的研究。他首先講解了社交媒體的研究動(dòng)機(jī),隨后分別介紹了用戶意圖分析、用戶畫像構(gòu)建、用戶需求推薦三個(gè)研究?jī)?nèi)容,最后趙鑫給出了相關(guān)研究的一些展望。
社交大數(shù)據(jù)無處不在,且與用戶息息相關(guān)(社交身份與真實(shí)身份綁定);用戶不斷產(chǎn)生的社交大數(shù)據(jù)蘊(yùn)含了豐富的商業(yè)價(jià)值,如何挖掘這些數(shù)據(jù)背后的知識(shí)則極為重要。傳統(tǒng)的電商推薦系統(tǒng)往往只能在自己的站內(nèi)進(jìn)行推薦服務(wù),一旦離開了自己的平臺(tái),它們的推薦服務(wù)就無能為力了。但用戶可能會(huì)在自己其他的一些社交平臺(tái)中暴露個(gè)人的購(gòu)買需求,例如在微博上發(fā)一條「要換手機(jī)了,求推薦」,如果能夠挖掘出這樣的信息,利用社交狀態(tài)信息實(shí)時(shí)地發(fā)現(xiàn)用戶購(gòu)買意圖則將解決傳統(tǒng)電商這方面的不足。
用戶購(gòu)買意圖識(shí)別根據(jù)領(lǐng)域有食物、出行、教育等。它不適用于有監(jiān)督學(xué)習(xí),最多只能做半監(jiān)督學(xué)習(xí)。在用戶意圖分類中,可以構(gòu)建整體模型的正則化框架,包括文本-關(guān)鍵詞正則化、文本-文本正則化、關(guān)鍵詞-關(guān)鍵詞正則化以及原始估計(jì)。
在用戶畫像中,傳統(tǒng)的應(yīng)用系統(tǒng)可能會(huì)遇到新用戶的可用信息太少等問題;在這方面如果能夠利用社交媒體平臺(tái)上的信息,則能夠很好地解決這些問題。
前兩步(意圖識(shí)別和用戶畫像)的工作是為了第三步——用戶需求推薦?;谑鼙姷漠a(chǎn)品推薦需要考慮兩個(gè)維度:性別和年齡,同時(shí)產(chǎn)品在受眾上也有一定的分布、受眾還有一定的圖分布。
趙鑫認(rèn)為他應(yīng)當(dāng)圍繞數(shù)據(jù)建立應(yīng)用問題,通過數(shù)據(jù)+弱知識(shí)+模型得到強(qiáng)知識(shí)。此外他認(rèn)為隨著網(wǎng)絡(luò)實(shí)名制的進(jìn)行,社交身份的形成與刻畫也是一個(gè)非常重要的研究方向。
James 作為一個(gè)社會(huì)學(xué)家,在報(bào)告中分享了他們關(guān)于團(tuán)隊(duì)合作(眾包和大團(tuán)隊(duì)協(xié)作)的研究。
他首先舉了一個(gè)例子,在 2010 年貝克教授和他的團(tuán)隊(duì)要重新設(shè)計(jì)酶催化 Diel-Alder 反應(yīng),但是效果不佳。他們就開發(fā)了一個(gè)名叫 Foldit!的蛋白質(zhì)游戲,不久研究人員就收回了近 20 萬個(gè)設(shè)計(jì)方案,酶的活性提高了 18 倍之多。這種眾包的現(xiàn)象也能復(fù)制到計(jì)算機(jī)領(lǐng)域呢,例如訓(xùn)練無監(jiān)督(有監(jiān)督)機(jī)器學(xué)習(xí)算法或者更復(fù)雜的并行任務(wù)?
James 的團(tuán)隊(duì)研究了 1954 年到 2014 年間 5000 萬多份論文、專利和軟件產(chǎn)品,以此從中分析團(tuán)隊(duì)合作特點(diǎn)。他們發(fā)現(xiàn)小的團(tuán)隊(duì)在定性工作中表現(xiàn)更佳,大的團(tuán)隊(duì)則在定量工作上更具優(yōu)勢(shì)。
王偉教授在報(bào)告中主要介紹了他們實(shí)驗(yàn)組 ScAi 在動(dòng)態(tài)網(wǎng)絡(luò)中的研究。
很多數(shù)據(jù)是以網(wǎng)絡(luò)的形式存在的,例如社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)、蛋白質(zhì)交互網(wǎng)絡(luò)、道路網(wǎng)絡(luò)、引用率網(wǎng)絡(luò)等。
考慮到網(wǎng)絡(luò)的動(dòng)態(tài)性,王偉介紹了將網(wǎng)絡(luò)結(jié)構(gòu)描述成時(shí)間的一個(gè)函數(shù)的方法:時(shí)間因式分解網(wǎng)絡(luò)模型。也即將矩陣因式分解為兩個(gè)時(shí)間依賴的矩陣。方法很簡(jiǎn)單,但卻很有效,因?yàn)楫?dāng)計(jì)算的時(shí)候不用每次都從頭重新計(jì)算。這種方法的應(yīng)用不分有向圖還是無向圖。在 Link Prediction 問題可以看出這種方法的優(yōu)勢(shì)。對(duì)于 Anomaly 的檢測(cè),則可以直接通過相鄰時(shí)間邊的差異來計(jì)算。
除了時(shí)間的一致性,還有空間一致性的考慮。通過考慮鄰近邊之間的相互影響,把空間的因素也考慮進(jìn)動(dòng)態(tài)網(wǎng)絡(luò)當(dāng)中。
通過考慮時(shí)間和空間的動(dòng)態(tài)性,則能夠更好地預(yù)測(cè)網(wǎng)絡(luò)的發(fā)展。隨后王偉教授講述了具有時(shí)空一致性的邊預(yù)測(cè)(LIST)以及動(dòng)態(tài)屬性網(wǎng)絡(luò)(DANE)和使用動(dòng)態(tài)網(wǎng)絡(luò) embedding 的異常檢測(cè)(NetWalk)。
胡祥恩教授主要從認(rèn)知心理學(xué)的角度來考慮語義表示和分析(SRA),并介紹了相關(guān)的一些應(yīng)用。
胡祥恩認(rèn)為數(shù)據(jù)和信息不能劃等號(hào)。從心理學(xué)的角度考慮的重點(diǎn)不是大的數(shù)據(jù),而是人的行為。
胡祥恩介紹了他們?cè)谥悄軐?dǎo)學(xué) AutoTutor 方面的研究。所謂智能導(dǎo)學(xué)就是用認(rèn)知心理學(xué)中學(xué)習(xí)和記憶的原理來設(shè)計(jì)計(jì)算機(jī)的系統(tǒng),使計(jì)算機(jī)的系統(tǒng)能跟人進(jìn)行互動(dòng)。胡祥恩的研究與其他研究團(tuán)隊(duì)的智能導(dǎo)學(xué)研究主要的區(qū)別在于,更強(qiáng)調(diào)自然語言的交互。他在報(bào)告中詳細(xì)介紹了智能導(dǎo)學(xué)的框架及應(yīng)用。
自然語言的交互首先就需要?jiǎng)?chuàng)建語義空間,這包括首先構(gòu)建語料庫,其次將語料庫編碼進(jìn)語義空間,最后才是應(yīng)用。針對(duì)一個(gè)給定的應(yīng)用(尤其是教育領(lǐng)域),胡祥恩認(rèn)為我們應(yīng)當(dāng)選著最好的語料庫、用最好的編碼方法,用在最恰當(dāng)?shù)膽?yīng)用上,否則就是對(duì)孩子生命的不負(fù)責(zé)任。
隨后他就 AutoTutor 中如何進(jìn)行選擇語料庫、編碼和應(yīng)用做出了詳細(xì)講解。
石川首先回顧了社交網(wǎng)絡(luò)的三個(gè)發(fā)展階段:2000 年以前的對(duì)象特征挖掘、2000 年之后基于交互式網(wǎng)絡(luò)出現(xiàn)的鏈接關(guān)系挖掘,以及隨后出現(xiàn)的對(duì)象之間有多種復(fù)雜關(guān)系的異質(zhì)信息網(wǎng)絡(luò)挖掘。
隨后他介紹了異質(zhì)信息網(wǎng)絡(luò)的基本概念,并對(duì)比了異質(zhì)信息網(wǎng)絡(luò)與同質(zhì)信息網(wǎng)絡(luò)、多重關(guān)系網(wǎng)絡(luò)、復(fù)雜網(wǎng)絡(luò)之間的異同。他認(rèn)為挖掘異質(zhì)信息網(wǎng)絡(luò)的優(yōu)點(diǎn)在于異質(zhì)信息網(wǎng)絡(luò)無處不在,包含了大量豐富的語義和綜合信息;但同時(shí)也面臨著許多挑戰(zhàn),例如結(jié)構(gòu)復(fù)雜以及語義難挖掘等。
隨后石川通過幾個(gè)具體的實(shí)例來介紹如何進(jìn)行異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)挖掘,分別為相似性度量(HeteSim)、推薦(SemRec)和惡意軟件檢測(cè)(HinDriod)。其中最后一個(gè)為今年 KDD 的最佳應(yīng)用論文。
最后石川總結(jié)了異質(zhì)信息網(wǎng)絡(luò)研究的現(xiàn)狀和未來研究的方向。他認(rèn)為異質(zhì)信息網(wǎng)絡(luò)仍然是一個(gè)年輕的、有前途的研究領(lǐng)域。對(duì)于大數(shù)據(jù)的 5V(Volume、Velocity、Variety、Veracity 和 Value),異質(zhì)信息網(wǎng)絡(luò)對(duì)其中的多樣性(Variety)將有很大的促進(jìn)。其挑戰(zhàn)在于如何解決更復(fù)雜的問題(例如知識(shí)圖譜)、如何變得更加強(qiáng)大以及如何處理更大的數(shù)據(jù)。當(dāng)然異質(zhì)信息網(wǎng)絡(luò)處理中也有很多機(jī)會(huì),包括解釋、表示和分析。石川整理了異質(zhì)信息網(wǎng)絡(luò)領(lǐng)域較為重要的論文資料,詳細(xì)信息可以訪問石川的個(gè)人主頁。
崔鵬在報(bào)告中主要介紹了他們圍繞網(wǎng)絡(luò)嵌入的一些工作。崔鵬介紹說,現(xiàn)在大數(shù)據(jù)的體量和計(jì)算機(jī)的計(jì)算能力都在呈指數(shù)增長(zhǎng),如果按照這種趨勢(shì)發(fā)展,那么對(duì)大數(shù)據(jù)的研究將不成問題。
但是現(xiàn)實(shí)的數(shù)據(jù)之間是存在關(guān)聯(lián)的,這就導(dǎo)致數(shù)據(jù)的增長(zhǎng)不僅僅是指數(shù),而是指數(shù)的指數(shù)。
對(duì)于這種大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù),他認(rèn)為由于 link 的存在,就會(huì)造成由迭代和組合造成的復(fù)雜性、由耦合帶來的可平行性以及由節(jié)點(diǎn)間的從屬關(guān)系帶來的機(jī)器學(xué)習(xí)應(yīng)用的一些問題。
崔鵬隨后介紹了將網(wǎng)絡(luò)嵌入到一個(gè)向量空間,那么關(guān)于 node importance、community detection、Network distance、link Prediction 等等問題都可以轉(zhuǎn)化為向量空間中的問題。如何將網(wǎng)絡(luò)嵌入到向量空間呢?崔鵬認(rèn)為有兩個(gè)目標(biāo):1、能否從向量空間重構(gòu)原網(wǎng)絡(luò);2、向量空間是否支持網(wǎng)絡(luò)表示。
介紹完這些背景知識(shí)后,崔鵬介紹了他們最近的兩項(xiàng)工作。其一為從更復(fù)雜結(jié)構(gòu)角度考慮的 Hyper-network Embedding,其二為從更多挑戰(zhàn)性的特性角度考慮的 Dynamic Network Embedding。
崔鵬認(rèn)為現(xiàn)實(shí)應(yīng)用中網(wǎng)絡(luò)數(shù)據(jù)還遠(yuǎn)沒有被挖掘,主要面臨著復(fù)雜性和可擴(kuò)展性的瓶頸。對(duì)這一問題最本質(zhì)的解決就是網(wǎng)絡(luò)表示學(xué)習(xí),而網(wǎng)絡(luò)嵌入則被證明是一個(gè)有前景的方法,但仍然還有很長(zhǎng)的路要走。
沈華偉主要從信息傳播預(yù)測(cè)的角度來講述,報(bào)告內(nèi)容主要分為兩個(gè)部分。
沈華偉首先分享了影響力最大化的研究。所謂影響力最大化,就是給定一個(gè)社會(huì)網(wǎng)絡(luò)找到一個(gè)尺寸固定的子節(jié)點(diǎn)集合,最大限度地?cái)U(kuò)大影響力。對(duì)于這項(xiàng)研究有兩個(gè)主要問題:如何確定人際影響節(jié)點(diǎn)間的傳播概率?如何設(shè)計(jì)高效、準(zhǔn)確的影響力最大化算法?現(xiàn)存的算法有 Greedy 算法、Heuristic 算法等,但是它們面臨著可擴(kuò)展性-準(zhǔn)確性的困境。沈華偉他們的解決方法就是在蒙特卡洛模擬中重用相同的集合,并提出了 StaticGreedy 算法。
隨后沈華偉介紹了傳播預(yù)測(cè)。對(duì)于傳播預(yù)測(cè)現(xiàn)存的方法有兩大類:feature-based methods 和 temporal analysis。但是這些方法忽視了人群動(dòng)態(tài)是一個(gè)反映集體參與的過程。于是他們提出一種 process-based 方法。他認(rèn)為群體動(dòng)態(tài)是一個(gè) arrival process 能夠捕獲一個(gè)信息如何積累關(guān)注,基于特征的方法將會(huì)被合并到特征學(xué)習(xí)方法中。
在報(bào)告的最后,沈華偉做出了兩個(gè)預(yù)測(cè):
1、在未來會(huì)由 feature-engineering 變到 feature-learning;
2、明年社會(huì)網(wǎng)絡(luò)將會(huì)成為突破的一年。
劉知遠(yuǎn)的基本觀點(diǎn)是:計(jì)算社會(huì)科學(xué)研究比的是「想法」。他認(rèn)為語言是研究人類社會(huì)的重要角度,他舉了很多有意思的例子。例如哈佛大學(xué)研究團(tuán)隊(duì)利用 google books 并掃描識(shí)別的 1800 年到 2000 年之間的 500 萬種出版物,通過不同關(guān)鍵詞使用頻度隨時(shí)間的變化,分析人類文化演進(jìn)特點(diǎn);斯坦福大學(xué) Leskovec 團(tuán)隊(duì)收集 9 千萬篇新聞文章,利用引號(hào)抽取流行語句作為模因,通過跟蹤模因使用頻率變化能夠及時(shí)有效地把握美國(guó)政治、經(jīng)濟(jì)和文化生活。此外還有研究在線社區(qū)中語言使用變遷模式、利用名人出生死亡信息來研究文化中心變遷、研制微博關(guān)鍵詞應(yīng)用。劉知遠(yuǎn)認(rèn)為以上這些都是「前表示學(xué)習(xí)時(shí)代」——基于符號(hào)的表示,這些研究中都是把沒個(gè)詞表示為 one-hot 的模型。這種表示模型不能表示不同詞之間的關(guān)系。隨后他介紹了分布式表示學(xué)習(xí),在這種表示中對(duì)象均被表示為稠密、實(shí)值、低維向量;向量之間的距離則能夠表示不同詞之間的關(guān)系。
基于這種表示,word2vec 的學(xué)習(xí)模型開始發(fā)展。這種學(xué)習(xí)模型在詞匯相似度計(jì)算上有非常好的效果,同時(shí)還能習(xí)得詞匯間隱含關(guān)系、發(fā)現(xiàn)詞匯語義層級(jí)、建立跨語言詞匯表示、建立視覺-文本聯(lián)合表示、檢測(cè)詞匯語義變遷。
隨后劉知遠(yuǎn)介紹了一份發(fā)表在《nature》上的來自認(rèn)知科學(xué)的研究成果,即語言分布式表示在大腦中的體現(xiàn),利用分布式表示繪制了詞匯的大腦地圖。研究發(fā)現(xiàn)不同的詞對(duì)腦區(qū)的激活并不是局限在某一個(gè)腦區(qū),而是分布在大腦各個(gè)部分;意義相關(guān)的詞匯所激活的大腦區(qū)域相似。
最后劉知遠(yuǎn)還詳細(xì)講述了計(jì)算社會(huì)科學(xué)的研究,包括融合 HowNet 的詞義表示、知識(shí)圖譜等。他認(rèn)為分布式表示提供了比符號(hào)表示更加強(qiáng)大的計(jì)算能力,具有更強(qiáng)更深的洞察能力,但關(guān)鍵也看如何能創(chuàng)造性地用起來。
楊洋的報(bào)告內(nèi)容主要有兩個(gè)主題內(nèi)容,其一為群體用戶的行為分析,其二是面向網(wǎng)絡(luò)的表示學(xué)習(xí)。
針對(duì)群體用戶的行為分析,楊洋介紹了三個(gè)具體的研究案例。案例一從社會(huì)學(xué)角度出發(fā),研究移民者的都市夢(mèng)——感知移民群體的行為模式,并給出城市規(guī)劃導(dǎo)向性的建議。在這個(gè)案例中,楊洋通過使用上海全網(wǎng)通話的 5400 萬用戶的 7 億條元數(shù)據(jù)(無通話內(nèi)容,只有撥打和接聽數(shù)據(jù))研究了不同群體(本地人、老移民者、新移民者)的行為模式差異。他們發(fā)現(xiàn)新移民者融入新環(huán)境有三種模式:朝向本地人靠攏,朝向老移民者靠攏和移民失敗。他們發(fā)現(xiàn)移民者抵達(dá)都市后的前兩周的行為模式?jīng)Q定了他最終是否能夠移民成功。
隨后他講述了他在做的一個(gè)電信領(lǐng)域的案例——通過用戶通話記錄來判斷一個(gè)用戶是否是電話詐騙分子并挖掘詐騙分子的詐騙策略。數(shù)據(jù)集與上面的案例相同,但構(gòu)建了一個(gè)有向圖。他們發(fā)現(xiàn)詐騙分子在打出電話的頻率比普通用戶要高 200 倍之多、詐騙分子打出電話對(duì)象之間的關(guān)系極弱。在時(shí)間分布上發(fā)現(xiàn)詐騙分子打電話的時(shí)間分布與上班族類似。
案例三是金融學(xué)領(lǐng)域的——根據(jù)用戶通話模式來判斷借貸是否會(huì)逾期還款的金融風(fēng)控,即給定一名沒有任何借款記錄的新客戶通過他的通話記錄來判斷他是否會(huì)逾期還款。
在總結(jié)社交網(wǎng)絡(luò)群體用戶行為分析的研究時(shí),楊洋說很多情況下我們并不需要相關(guān)的專業(yè)知識(shí),但需要了解用戶的行為。他舉例說為了研究王者榮耀用戶的行為,他和他的學(xué)生打了一個(gè)月的王者榮耀。
隨后楊洋介紹了他們組兩篇 AAAI 2018 收錄文章的內(nèi)容。其一為 Dynamic Network Embedding by Modeling Triadic Closure Process,介紹了愛你想動(dòng)態(tài)網(wǎng)絡(luò)的表示學(xué)習(xí);其二為 Representation Learning for Scale-free networks,介紹了面向無尺度網(wǎng)絡(luò)的表示學(xué)習(xí)。
韓家煒在報(bào)告中分享了他們?cè)趯⒋髷?shù)據(jù)變成 Actionable Knowledge 的一些研究。首先他介紹了如何去做。
在現(xiàn)在的大數(shù)據(jù)中有 80% 的數(shù)據(jù)都是以無結(jié)構(gòu)的文本、圖片、社交關(guān)系等表示。韓家煒介紹說他們的研究組有三個(gè) keywords,分別為:結(jié)構(gòu)化(structuring)、網(wǎng)絡(luò)化(Networking)和挖掘(Mining)。因此他們的工作有三步曲,首先是怎么從文本數(shù)據(jù)中挖掘出隱含的結(jié)構(gòu);其次是將文本轉(zhuǎn)化為網(wǎng)絡(luò)和 TextCube;最后是從網(wǎng)絡(luò)和 TextCube 中挖掘出 Actionable Knowledge。
在挖掘數(shù)據(jù)之前,先將數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)和 TextCube,韓家煒認(rèn)為這樣處理更 powerful,他舉了一個(gè)論文 Co-Authors 預(yù)測(cè)的例子說明這個(gè)問題。
隨后韓家煒介紹了近期的幾項(xiàng)從無結(jié)構(gòu)文本中挖掘結(jié)構(gòu)的工作。首先他介紹了短語挖掘的工作,即把原始的語料庫翻譯成高質(zhì)量的短語和分段的語料庫。其次是讓短語有意義,他介紹了實(shí)體/關(guān)系的解析工作。隨后,他介紹了 MetaPAD 工作,即元模式驅(qū)動(dòng)的來自大量文本語料庫的屬性發(fā)現(xiàn)。最后他還介紹了多方面分類挖掘(Multifaceted Taxonomy Mining)。
做以上這些研究的目的是用來建立一個(gè)多維的 TextCube。韓家煒介紹了如何將文件正確地放入一個(gè) Cube Cell,并用大量數(shù)據(jù)和少量 labels來構(gòu)建 TextCubes。韓家煒認(rèn)為要想把 Big Data 變成 Big Knowledge,很重要的一條就是要有結(jié)構(gòu);現(xiàn)在這種結(jié)構(gòu)有兩種,其一是異質(zhì)網(wǎng)絡(luò),其二是 TextCube;用這兩種結(jié)構(gòu)去挖掘出知識(shí)是很 powerful 的;現(xiàn)在如何將異質(zhì)網(wǎng)絡(luò)和 TextCube 結(jié)合起來,還沒有解決。
從無結(jié)構(gòu)數(shù)據(jù)到知識(shí)是一條很長(zhǎng)的路,韓家煒說近二十年所做的工作正是沿著這條路走的;現(xiàn)在這條路還只是一條小路,期望最終能成為一條康莊大道。
AI科技評(píng)論隨后將整理 韓家煒 完整報(bào)告,敬請(qǐng)期待!
除了這些精彩的報(bào)告外,ADL 還組織了一場(chǎng)精彩異常的 Panel 環(huán)節(jié)。Panel 上有韓家煒、劉知遠(yuǎn)、石川、沈華偉、楊洋以及從現(xiàn)場(chǎng)選出的一位學(xué)員。下面雷鋒網(wǎng)整理出 Panel 環(huán)節(jié)的部分精彩問答。
提問:社交網(wǎng)絡(luò)研究的挑戰(zhàn)是什么?
劉知遠(yuǎn)認(rèn)為社交網(wǎng)絡(luò)研究的挑戰(zhàn)有兩個(gè)層面,第一是:知識(shí)是一個(gè)重要的切入角度;第二,從技術(shù)上 embedding 和 Deep learning 會(huì)成為重要的技術(shù)手段。
韓家煒認(rèn)為從無結(jié)構(gòu)數(shù)據(jù)中提取出有結(jié)構(gòu)數(shù)據(jù),從結(jié)構(gòu)數(shù)據(jù)中提取出網(wǎng)絡(luò)和 textCube,以及從后兩者中提取出知識(shí)極為重要。要想自動(dòng)化,很重要的一條就是從大量數(shù)據(jù)中挖掘出結(jié)構(gòu)來。
沈華偉提出一種比較新穎的觀點(diǎn),我們總是把網(wǎng)絡(luò)化數(shù)據(jù) embedding 到一個(gè)空間中,那么是否可以反其道而行之呢?也即是把算子遷移到網(wǎng)絡(luò)上,還是把網(wǎng)絡(luò)數(shù)據(jù)遷移到算子上。
楊洋認(rèn)為無論是 embedding 還是社會(huì)計(jì)算學(xué),做的算法都缺少可解釋性。
提問:如何和其他領(lǐng)域的學(xué)者的領(lǐng)域知識(shí)進(jìn)行融合?
沈華偉認(rèn)為和其他領(lǐng)域的學(xué)者合作主要就三件事情:
1、看他們關(guān)心什么,我們能否幫上忙;
2、看他們研究的套路是什么,我們能否借鑒;
3、做完上面兩步,你就會(huì)發(fā)現(xiàn)其實(shí)大家做的都一樣,只是看問題的角度不同、語言不同。
所以其實(shí)一點(diǎn)都不難,關(guān)鍵是你抱著什么目的去做這個(gè)事。
提問:領(lǐng)域知識(shí)在當(dāng)前深度學(xué)習(xí)發(fā)展如此火熱下怎么應(yīng)用?
韓家煒認(rèn)為深度學(xué)習(xí)仍在發(fā)展。現(xiàn)在深度學(xué)習(xí)仍然需要大量 label data。所以如果能將領(lǐng)域知識(shí)和深度學(xué)習(xí)結(jié)合起來可能會(huì)讓學(xué)習(xí)更好。此外,現(xiàn)在很多學(xué)者在提出怎么去做小樣本數(shù)據(jù)的深度學(xué)習(xí),所以現(xiàn)在一個(gè)很重要的矛盾就是 Big Data 和 Little Data 之間的矛盾?,F(xiàn)在不是領(lǐng)域知識(shí)沒用,而是 Deep Learning 還沒有走到應(yīng)用領(lǐng)域知識(shí)這一步。
雷鋒網(wǎng)總結(jié):本期 ADL 講習(xí)班由唐杰和劉知遠(yuǎn)等老師組織,邀請(qǐng)了國(guó)內(nèi)外一眾大牛學(xué)者,包括數(shù)據(jù)挖掘領(lǐng)域頂尖學(xué)者韓家煒和Philip S Yu等教授,以及諸如胡祥恩、James A. Evans 等心理學(xué)和社會(huì)學(xué)的知名學(xué)者。三天的時(shí)間里,13位學(xué)者分別從各個(gè)角度對(duì)社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘進(jìn)行了詳細(xì)的、全方位的解讀。
從學(xué)員的角度來看,可以發(fā)現(xiàn)不僅僅是計(jì)算機(jī)學(xué)科的人對(duì)社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘感興趣,一些心理學(xué)、管理學(xué)等專業(yè)的學(xué)生也前來聽講,甚至還包括許多高校老師、企業(yè)技術(shù)人員以及國(guó)家安全部門的一些人員。
有這么多的人對(duì)這一領(lǐng)域抱有濃厚的興趣,或許如沈華偉老師所預(yù)測(cè)的,明年社交網(wǎng)絡(luò)可能會(huì)是突破的一年。
本次課程早早就報(bào)滿,受場(chǎng)地限制并未提供更多名額,而且 CCF 還推出更多 ADL課程。為了讓更多人工智能愛好者、業(yè)界從業(yè)者、科研研究者們都能看到 CCF ADL 課程,人工智能培訓(xùn)平臺(tái) AI慕課學(xué)院獲 CCF 獨(dú)家線上視頻版權(quán),點(diǎn)擊報(bào)名鏈接或掃描下面?二維碼即可完整再現(xiàn)13位學(xué)者現(xiàn)場(chǎng)授課、交流的場(chǎng)景。
相關(guān)文章:
回顧:7位國(guó)內(nèi)最頂尖的計(jì)算學(xué)者齊聚CCF ADL,講解驅(qū)動(dòng)城市智能未來的技術(shù)
回顧:國(guó)內(nèi)人機(jī)交互專家齊聚CCF-ADL,從觸覺交互到認(rèn)知行為智能計(jì)算你想知道的都在這兒
CCF ADL 85 智能商業(yè)講習(xí)班回顧:AI+大數(shù)據(jù)如何在商業(yè)世界大展身手?
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。