丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

本文作者: camel 2017-12-27 11:39
導(dǎo)語(yǔ):Philip S Yu也來(lái)了……

雷鋒網(wǎng) AI 科技評(píng)論按:2017 年 12 月 22-24 日,由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦的第 87 期 CCF 學(xué)科前沿講習(xí)班(CCF Advanced Disciplines Lectures,簡(jiǎn)稱 ADL)在北京中國(guó)科學(xué)院計(jì)算技術(shù)研究所成功舉辦,雷鋒網(wǎng)作為獨(dú)家合作媒體,進(jìn)行了全程報(bào)道。

本次講習(xí)班的主題為《社交網(wǎng)絡(luò)與數(shù)據(jù)挖掘》。社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘是計(jì)算機(jī)學(xué)科相關(guān)研究中的熱點(diǎn),具體研究涵蓋理論、關(guān)鍵技術(shù)以及互聯(lián)網(wǎng)核心應(yīng)用等各個(gè)應(yīng)用。

本次講習(xí)班邀請(qǐng)到了一系列的學(xué)界大牛,包括:

韓家煒——UIUC 教授,ACM/IEEE Fellow

Philip S Yu——伊利諾伊大學(xué)芝加哥分校特聘教授,清華大學(xué)數(shù)據(jù)科學(xué)院院長(zhǎng),ACM/IEEE 會(huì)士

Wei Wang——UCLA 教授,KDD 2016 Service Award

胡祥恩——孟菲斯大學(xué)教授,華中師范大學(xué)教授、心理學(xué)院院長(zhǎng)

James A. Evans——芝加哥大學(xué)社會(huì)學(xué)系教授

唐杰——清華大學(xué)副教授

沈華偉——中科院計(jì)算所研究員

石川——北京郵電大學(xué)教授

宋國(guó)杰——北京大學(xué)副教授

崔鵬——清華大學(xué)副教授

劉知遠(yuǎn)——清華大學(xué)助理教授

趙鑫——中國(guó)人民大學(xué)副教授

楊洋——浙江大學(xué)助理教授

三天的時(shí)間里,在社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘領(lǐng)域覆蓋的范圍內(nèi),13位老師分別講述了一個(gè)或幾個(gè)不同的研究方向,可謂場(chǎng)場(chǎng)干貨。尤其是韓家煒教授和Philip教授兩位學(xué)界大牛,從他們的報(bào)告可以看出,雖然他們講的概念不同,用的方法不同,但是他們做的方向基本一致,兩位學(xué)界巨擘的研究或許也代表了數(shù)據(jù)挖掘領(lǐng)域當(dāng)前的一個(gè)方向。

下面我們來(lái)回顧一下本次講習(xí)班的主要內(nèi)容(按分享時(shí)間順序總結(jié),排名不分先后)。

Philip S Yu:Broad Learning via Fusion of Social Network Information

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

Philip 教授作為數(shù)據(jù)挖掘領(lǐng)域的頂級(jí)人物,在報(bào)告中詳細(xì)闡述了他多年來(lái)所倡導(dǎo)的一種概念——Broad Learning(廣度學(xué)習(xí))。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

他認(rèn)為在大數(shù)據(jù)的時(shí)代,我們不僅需要深度學(xué)習(xí),更需要廣度學(xué)習(xí)。大數(shù)據(jù)并不是每個(gè)數(shù)據(jù)都很大或者都很復(fù)雜,除了大數(shù)據(jù)外還有很多數(shù)據(jù)集可以利用。在大數(shù)據(jù)時(shí)代各種各樣的數(shù)據(jù)都是可以利用的,為了更好地利用這些數(shù)據(jù),我們需要定義和獲取相關(guān)的有用數(shù)據(jù),然后設(shè)計(jì)一種模型將異質(zhì)數(shù)據(jù)源融合成起來(lái),再?gòu)倪@些數(shù)據(jù)源中挖掘信息。

廣度學(xué)習(xí)與深度學(xué)習(xí)的區(qū)別在于,深度學(xué)習(xí)的「深」來(lái)源于模型層數(shù),廣度學(xué)習(xí)的「廣」來(lái)源于數(shù)據(jù)以及模型的多樣。

根據(jù)對(duì) Broad Learning 的考慮,Philip 認(rèn)為廣度學(xué)習(xí)大致分為三類(lèi):

1)對(duì)同一個(gè)實(shí)體上的不同類(lèi)型信息進(jìn)行處理,這包括 multi-view,multi-model、multi-source Learning;

2)對(duì)不同但相似的實(shí)體上的信息的處理,這包括 transfer learning;

3)對(duì)通過(guò)復(fù)雜網(wǎng)絡(luò)關(guān)系相關(guān)的不同類(lèi)型實(shí)體的信息進(jìn)行處理,這包括異質(zhì)信息網(wǎng)絡(luò)(Heterogeneous Information Network,HIN)融合。

Philip 教授認(rèn)為 Broad Learning 的關(guān)鍵任務(wù)有兩點(diǎn):1、信息融合;2、知識(shí)發(fā)現(xiàn)。而其挑戰(zhàn)則是,怎么融合以及怎么挖掘知識(shí)?因?yàn)楝F(xiàn)在信息融合的方法會(huì)隨著不同的數(shù)據(jù)而變,此外在特定的知識(shí)發(fā)現(xiàn)任務(wù)中并不是所有的數(shù)據(jù)都是有用的。

隨后 Philip 教授通過(guò)三個(gè)例子來(lái)詳細(xì)闡述 Broad Learning 的概念,分別為:POI 預(yù)測(cè);跨社交網(wǎng)絡(luò)平臺(tái)的知識(shí)融合;地點(diǎn)預(yù)測(cè)。

唐杰:Social Network Mining

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

唐杰在講座中首先分析了什么是社交網(wǎng)絡(luò),以及社交網(wǎng)絡(luò)的發(fā)展歷史;隨后他講解了如何做社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘的研究、模型及應(yīng)用。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

唐杰認(rèn)為社交網(wǎng)絡(luò)就是由一組個(gè)人(節(jié)點(diǎn))組成的圖形,并由一個(gè)或多個(gè)相互依賴(「邊」)聯(lián)系起來(lái)。這是一個(gè)通過(guò)收集和分析大規(guī)模數(shù)據(jù)來(lái)揭示個(gè)人或社會(huì)行為模式的領(lǐng)域。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

唐杰認(rèn)為若想理解社交網(wǎng)絡(luò)是什么,就需要理解整個(gè) internet 的發(fā)展。Internet 的發(fā)展主要有三個(gè)階段。在信息時(shí)代 1.0 時(shí),網(wǎng)絡(luò)就是由一系列頁(yè)面(文檔)和頁(yè)面上的鏈接構(gòu)成的一個(gè)結(jié)構(gòu)。第一個(gè)時(shí)代一方面越來(lái)越多的傳統(tǒng)行業(yè)不斷地加入,于是產(chǎn)生了大數(shù)據(jù);同時(shí)還伴隨著產(chǎn)生了云計(jì)算。在信息時(shí)代 2.0,用戶加入了網(wǎng)絡(luò)當(dāng)中,「今日頭條」就是這方面典型的應(yīng)用。在信息時(shí)代 3.0,用戶開(kāi)始在網(wǎng)絡(luò)上了,用戶之間形成了交互,這就形成了信息空間和用戶空間,通過(guò)兩個(gè)空間信息的融合將產(chǎn)生智能。

有了數(shù)據(jù),怎么去發(fā)現(xiàn)并充分利用大數(shù)據(jù)的價(jià)值,則需要新型數(shù)據(jù)挖掘和分析方法,以能夠從非結(jié)構(gòu)化數(shù)據(jù)中獲得知識(shí)和洞察力。

關(guān)于社交網(wǎng)絡(luò)研究的歷史,唐杰從 1967 年 Milgram 提出的六度空間講起,并介紹了 Weak Tie(1973)、鄧巴數(shù)(1992)、結(jié)構(gòu)洞(1995)、HITS(1997)、小世界(1998)、Scale Free(1999)、Community Detection(2002)、Link Prediction(2005)、Spread of Obesity(2007)、Social Influence Analysis(2009)等。

隨后唐杰以如何將 AI(「小木」)應(yīng)用到慕課以及如何通過(guò)手機(jī)發(fā)紅包的數(shù)據(jù)研究社會(huì)現(xiàn)象兩個(gè)具體案例,講述了如何做社交網(wǎng)絡(luò)的問(wèn)題研究。

在社交網(wǎng)絡(luò)研究的計(jì)算模型方面,唐杰以「Unifying Network Embedding」為主題,介紹了 DeepWalk, LINE, PTE, and node2vec 以及 NetMF 等方法。

最后唐杰以他近期所做的研究 AMiner 為例詳細(xì)講述社交網(wǎng)絡(luò)的研究如何應(yīng)用到實(shí)際問(wèn)題當(dāng)中。他還介紹了一些有意思的應(yīng)用,包括預(yù)測(cè)紅包流向、學(xué)堂在線伴讀機(jī)器人「小木」。

宋國(guó)杰:社交網(wǎng)絡(luò)影響最大化

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

宋國(guó)杰首先介紹了社交網(wǎng)絡(luò)最大化的基本背景知識(shí),然后對(duì)「影響最大化」做出了定義,并舉出兩個(gè)有代表性的算法研究和兩個(gè)他們做的一些工作。最后總結(jié)了一些該領(lǐng)域的未來(lái)方向。

所謂擴(kuò)散就是某個(gè)事物在社會(huì)系統(tǒng)的成員中通過(guò)某種渠道隨著時(shí)間而不斷有更多的人受到影響,用病毒的傳播可以更好地理解這個(gè)概念,例如 SARS 的爆發(fā)、電腦蠕蟲(chóng)等。而在做社交網(wǎng)絡(luò)的人眼中,類(lèi)似地就是去研究信息如何在社交網(wǎng)絡(luò)平臺(tái)中進(jìn)行傳播,以及如何才能做到傳播影響力的最大化(以便做廣告等)。

影響最大化一般可以分成幾個(gè)的模型,例如離散時(shí)間模型、連續(xù)時(shí)間模型、競(jìng)爭(zhēng)擴(kuò)散模型或者其他諸如流行病傳播模型、投票模型等。其中在離散時(shí)間模型大類(lèi)中 Threshold Model 和 Cascade Mode 兩個(gè)模型最為基本。

當(dāng)給定一個(gè)模型時(shí),最優(yōu)化的問(wèn)題有例如:

1、該如何選擇一系列用戶,給他們一些打折券,最后能使更多的用戶受到影響?

2、該選擇那些人群去接種疫苗,能夠最小化傳染?

3、如果有一些傳感器,該如何放置它們以能加速檢測(cè)到傳染?。?br/>

在研究的算法部分,宋國(guó)杰詳細(xì)介紹了 Lazy Evaluation 算法和 MIA Heuristic 算法。

隨后宋國(guó)杰介紹了他們做的四項(xiàng)工作,分別為:

1、如何降低影響力計(jì)算所消耗的成本;

2、如何加速收斂過(guò)程;

3、當(dāng)不同信息傳播時(shí)會(huì)發(fā)生什么?

4、當(dāng)動(dòng)態(tài)社會(huì)網(wǎng)絡(luò)中我們會(huì)遇到什么。

最后宋國(guó)杰說(shuō),在實(shí)際企業(yè)應(yīng)用中并不一定會(huì)需要效率更高的算法,而是傾向于使用比較成熟、穩(wěn)定的算法。因此如何在具體的場(chǎng)景中找到好的應(yīng)用點(diǎn),是驅(qū)動(dòng)這個(gè)方面進(jìn)一步的研究的關(guān)鍵之處。

趙鑫:面向社交媒體平臺(tái)的商業(yè)知識(shí)挖掘

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

趙鑫主要從應(yīng)用的視角來(lái)看社交媒體平臺(tái)的研究。他首先講解了社交媒體的研究動(dòng)機(jī),隨后分別介紹了用戶意圖分析、用戶畫(huà)像構(gòu)建、用戶需求推薦三個(gè)研究?jī)?nèi)容,最后趙鑫給出了相關(guān)研究的一些展望。

社交大數(shù)據(jù)無(wú)處不在,且與用戶息息相關(guān)(社交身份與真實(shí)身份綁定);用戶不斷產(chǎn)生的社交大數(shù)據(jù)蘊(yùn)含了豐富的商業(yè)價(jià)值,如何挖掘這些數(shù)據(jù)背后的知識(shí)則極為重要。傳統(tǒng)的電商推薦系統(tǒng)往往只能在自己的站內(nèi)進(jìn)行推薦服務(wù),一旦離開(kāi)了自己的平臺(tái),它們的推薦服務(wù)就無(wú)能為力了。但用戶可能會(huì)在自己其他的一些社交平臺(tái)中暴露個(gè)人的購(gòu)買(mǎi)需求,例如在微博上發(fā)一條「要換手機(jī)了,求推薦」,如果能夠挖掘出這樣的信息,利用社交狀態(tài)信息實(shí)時(shí)地發(fā)現(xiàn)用戶購(gòu)買(mǎi)意圖則將解決傳統(tǒng)電商這方面的不足。

用戶購(gòu)買(mǎi)意圖識(shí)別根據(jù)領(lǐng)域有食物、出行、教育等。它不適用于有監(jiān)督學(xué)習(xí),最多只能做半監(jiān)督學(xué)習(xí)。在用戶意圖分類(lèi)中,可以構(gòu)建整體模型的正則化框架,包括文本-關(guān)鍵詞正則化、文本-文本正則化、關(guān)鍵詞-關(guān)鍵詞正則化以及原始估計(jì)。

在用戶畫(huà)像中,傳統(tǒng)的應(yīng)用系統(tǒng)可能會(huì)遇到新用戶的可用信息太少等問(wèn)題;在這方面如果能夠利用社交媒體平臺(tái)上的信息,則能夠很好地解決這些問(wèn)題。

前兩步(意圖識(shí)別和用戶畫(huà)像)的工作是為了第三步——用戶需求推薦。基于受眾的產(chǎn)品推薦需要考慮兩個(gè)維度:性別和年齡,同時(shí)產(chǎn)品在受眾上也有一定的分布、受眾還有一定的圖分布。

趙鑫認(rèn)為他應(yīng)當(dāng)圍繞數(shù)據(jù)建立應(yīng)用問(wèn)題,通過(guò)數(shù)據(jù)+弱知識(shí)+模型得到強(qiáng)知識(shí)。此外他認(rèn)為隨著網(wǎng)絡(luò)實(shí)名制的進(jìn)行,社交身份的形成與刻畫(huà)也是一個(gè)非常重要的研究方向。

James A. Evans:Team Structure and Scientific Advance

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

James 作為一個(gè)社會(huì)學(xué)家,在報(bào)告中分享了他們關(guān)于團(tuán)隊(duì)合作(眾包和大團(tuán)隊(duì)協(xié)作)的研究。

他首先舉了一個(gè)例子,在 2010 年貝克教授和他的團(tuán)隊(duì)要重新設(shè)計(jì)酶催化 Diel-Alder 反應(yīng),但是效果不佳。他們就開(kāi)發(fā)了一個(gè)名叫 Foldit!的蛋白質(zhì)游戲,不久研究人員就收回了近 20 萬(wàn)個(gè)設(shè)計(jì)方案,酶的活性提高了 18 倍之多。這種眾包的現(xiàn)象也能復(fù)制到計(jì)算機(jī)領(lǐng)域呢,例如訓(xùn)練無(wú)監(jiān)督(有監(jiān)督)機(jī)器學(xué)習(xí)算法或者更復(fù)雜的并行任務(wù)?

James 的團(tuán)隊(duì)研究了 1954 年到 2014 年間 5000 萬(wàn)多份論文、專(zhuān)利和軟件產(chǎn)品,以此從中分析團(tuán)隊(duì)合作特點(diǎn)。他們發(fā)現(xiàn)小的團(tuán)隊(duì)在定性工作中表現(xiàn)更佳,大的團(tuán)隊(duì)則在定量工作上更具優(yōu)勢(shì)。

Wei Wang:Modeling Dynamic Networks

王偉教授在報(bào)告中主要介紹了他們實(shí)驗(yàn)組 ScAi 在動(dòng)態(tài)網(wǎng)絡(luò)中的研究。

很多數(shù)據(jù)是以網(wǎng)絡(luò)的形式存在的,例如社交網(wǎng)絡(luò)、互聯(lián)網(wǎng)、蛋白質(zhì)交互網(wǎng)絡(luò)、道路網(wǎng)絡(luò)、引用率網(wǎng)絡(luò)等。

考慮到網(wǎng)絡(luò)的動(dòng)態(tài)性,王偉介紹了將網(wǎng)絡(luò)結(jié)構(gòu)描述成時(shí)間的一個(gè)函數(shù)的方法:時(shí)間因式分解網(wǎng)絡(luò)模型。也即將矩陣因式分解為兩個(gè)時(shí)間依賴的矩陣。方法很簡(jiǎn)單,但卻很有效,因?yàn)楫?dāng)計(jì)算的時(shí)候不用每次都從頭重新計(jì)算。這種方法的應(yīng)用不分有向圖還是無(wú)向圖。在 Link Prediction 問(wèn)題可以看出這種方法的優(yōu)勢(shì)。對(duì)于 Anomaly 的檢測(cè),則可以直接通過(guò)相鄰時(shí)間邊的差異來(lái)計(jì)算。

除了時(shí)間的一致性,還有空間一致性的考慮。通過(guò)考慮鄰近邊之間的相互影響,把空間的因素也考慮進(jìn)動(dòng)態(tài)網(wǎng)絡(luò)當(dāng)中。

通過(guò)考慮時(shí)間和空間的動(dòng)態(tài)性,則能夠更好地預(yù)測(cè)網(wǎng)絡(luò)的發(fā)展。隨后王偉教授講述了具有時(shí)空一致性的邊預(yù)測(cè)(LIST)以及動(dòng)態(tài)屬性網(wǎng)絡(luò)(DANE)和使用動(dòng)態(tài)網(wǎng)絡(luò) embedding 的異常檢測(cè)(NetWalk)。

胡祥恩:語(yǔ)義表示和分析(SRA)以及潛在的應(yīng)用

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

胡祥恩教授主要從認(rèn)知心理學(xué)的角度來(lái)考慮語(yǔ)義表示和分析(SRA),并介紹了相關(guān)的一些應(yīng)用。

胡祥恩認(rèn)為數(shù)據(jù)和信息不能劃等號(hào)。從心理學(xué)的角度考慮的重點(diǎn)不是大的數(shù)據(jù),而是人的行為。

胡祥恩介紹了他們?cè)谥悄軐?dǎo)學(xué) AutoTutor 方面的研究。所謂智能導(dǎo)學(xué)就是用認(rèn)知心理學(xué)中學(xué)習(xí)和記憶的原理來(lái)設(shè)計(jì)計(jì)算機(jī)的系統(tǒng),使計(jì)算機(jī)的系統(tǒng)能跟人進(jìn)行互動(dòng)。胡祥恩的研究與其他研究團(tuán)隊(duì)的智能導(dǎo)學(xué)研究主要的區(qū)別在于,更強(qiáng)調(diào)自然語(yǔ)言的交互。他在報(bào)告中詳細(xì)介紹了智能導(dǎo)學(xué)的框架及應(yīng)用。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

自然語(yǔ)言的交互首先就需要?jiǎng)?chuàng)建語(yǔ)義空間,這包括首先構(gòu)建語(yǔ)料庫(kù),其次將語(yǔ)料庫(kù)編碼進(jìn)語(yǔ)義空間,最后才是應(yīng)用。針對(duì)一個(gè)給定的應(yīng)用(尤其是教育領(lǐng)域),胡祥恩認(rèn)為我們應(yīng)當(dāng)選著最好的語(yǔ)料庫(kù)、用最好的編碼方法,用在最恰當(dāng)?shù)膽?yīng)用上,否則就是對(duì)孩子生命的不負(fù)責(zé)任。

隨后他就 AutoTutor 中如何進(jìn)行選擇語(yǔ)料庫(kù)、編碼和應(yīng)用做出了詳細(xì)講解。

石川:異質(zhì)信息網(wǎng)絡(luò)建模與分析

石川首先回顧了社交網(wǎng)絡(luò)的三個(gè)發(fā)展階段:2000 年以前的對(duì)象特征挖掘、2000 年之后基于交互式網(wǎng)絡(luò)出現(xiàn)的鏈接關(guān)系挖掘,以及隨后出現(xiàn)的對(duì)象之間有多種復(fù)雜關(guān)系的異質(zhì)信息網(wǎng)絡(luò)挖掘。

隨后他介紹了異質(zhì)信息網(wǎng)絡(luò)的基本概念,并對(duì)比了異質(zhì)信息網(wǎng)絡(luò)與同質(zhì)信息網(wǎng)絡(luò)、多重關(guān)系網(wǎng)絡(luò)、復(fù)雜網(wǎng)絡(luò)之間的異同。他認(rèn)為挖掘異質(zhì)信息網(wǎng)絡(luò)的優(yōu)點(diǎn)在于異質(zhì)信息網(wǎng)絡(luò)無(wú)處不在,包含了大量豐富的語(yǔ)義和綜合信息;但同時(shí)也面臨著許多挑戰(zhàn),例如結(jié)構(gòu)復(fù)雜以及語(yǔ)義難挖掘等。

隨后石川通過(guò)幾個(gè)具體的實(shí)例來(lái)介紹如何進(jìn)行異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)挖掘,分別為相似性度量(HeteSim)、推薦(SemRec)和惡意軟件檢測(cè)(HinDriod)。其中最后一個(gè)為今年 KDD 的最佳應(yīng)用論文。

最后石川總結(jié)了異質(zhì)信息網(wǎng)絡(luò)研究的現(xiàn)狀和未來(lái)研究的方向。他認(rèn)為異質(zhì)信息網(wǎng)絡(luò)仍然是一個(gè)年輕的、有前途的研究領(lǐng)域。對(duì)于大數(shù)據(jù)的 5V(Volume、Velocity、Variety、Veracity 和 Value),異質(zhì)信息網(wǎng)絡(luò)對(duì)其中的多樣性(Variety)將有很大的促進(jìn)。其挑戰(zhàn)在于如何解決更復(fù)雜的問(wèn)題(例如知識(shí)圖譜)、如何變得更加強(qiáng)大以及如何處理更大的數(shù)據(jù)。當(dāng)然異質(zhì)信息網(wǎng)絡(luò)處理中也有很多機(jī)會(huì),包括解釋、表示和分析。石川整理了異質(zhì)信息網(wǎng)絡(luò)領(lǐng)域較為重要的論文資料,詳細(xì)信息可以訪問(wèn)石川的個(gè)人主頁(yè)

崔鵬:網(wǎng)絡(luò)嵌入:在向量空間中啟用網(wǎng)絡(luò)分析和推理

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

崔鵬在報(bào)告中主要介紹了他們圍繞網(wǎng)絡(luò)嵌入的一些工作。崔鵬介紹說(shuō),現(xiàn)在大數(shù)據(jù)的體量和計(jì)算機(jī)的計(jì)算能力都在呈指數(shù)增長(zhǎng),如果按照這種趨勢(shì)發(fā)展,那么對(duì)大數(shù)據(jù)的研究將不成問(wèn)題。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

但是現(xiàn)實(shí)的數(shù)據(jù)之間是存在關(guān)聯(lián)的,這就導(dǎo)致數(shù)據(jù)的增長(zhǎng)不僅僅是指數(shù),而是指數(shù)的指數(shù)。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

對(duì)于這種大規(guī)模的網(wǎng)絡(luò)數(shù)據(jù),他認(rèn)為由于 link 的存在,就會(huì)造成由迭代和組合造成的復(fù)雜性、由耦合帶來(lái)的可平行性以及由節(jié)點(diǎn)間的從屬關(guān)系帶來(lái)的機(jī)器學(xué)習(xí)應(yīng)用的一些問(wèn)題。

崔鵬隨后介紹了將網(wǎng)絡(luò)嵌入到一個(gè)向量空間,那么關(guān)于 node importance、community detection、Network distance、link Prediction 等等問(wèn)題都可以轉(zhuǎn)化為向量空間中的問(wèn)題。如何將網(wǎng)絡(luò)嵌入到向量空間呢?崔鵬認(rèn)為有兩個(gè)目標(biāo):1、能否從向量空間重構(gòu)原網(wǎng)絡(luò);2、向量空間是否支持網(wǎng)絡(luò)表示。

介紹完這些背景知識(shí)后,崔鵬介紹了他們最近的兩項(xiàng)工作。其一為從更復(fù)雜結(jié)構(gòu)角度考慮的 Hyper-network Embedding,其二為從更多挑戰(zhàn)性的特性角度考慮的 Dynamic Network Embedding。

崔鵬認(rèn)為現(xiàn)實(shí)應(yīng)用中網(wǎng)絡(luò)數(shù)據(jù)還遠(yuǎn)沒(méi)有被挖掘,主要面臨著復(fù)雜性和可擴(kuò)展性的瓶頸。對(duì)這一問(wèn)題最本質(zhì)的解決就是網(wǎng)絡(luò)表示學(xué)習(xí),而網(wǎng)絡(luò)嵌入則被證明是一個(gè)有前景的方法,但仍然還有很長(zhǎng)的路要走。

沈華偉:在線社交媒體中的信息傳播預(yù)測(cè)

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

沈華偉主要從信息傳播預(yù)測(cè)的角度來(lái)講述,報(bào)告內(nèi)容主要分為兩個(gè)部分。

沈華偉首先分享了影響力最大化的研究。所謂影響力最大化,就是給定一個(gè)社會(huì)網(wǎng)絡(luò)找到一個(gè)尺寸固定的子節(jié)點(diǎn)集合,最大限度地?cái)U(kuò)大影響力。對(duì)于這項(xiàng)研究有兩個(gè)主要問(wèn)題:如何確定人際影響節(jié)點(diǎn)間的傳播概率?如何設(shè)計(jì)高效、準(zhǔn)確的影響力最大化算法?現(xiàn)存的算法有 Greedy 算法、Heuristic 算法等,但是它們面臨著可擴(kuò)展性-準(zhǔn)確性的困境。沈華偉他們的解決方法就是在蒙特卡洛模擬中重用相同的集合,并提出了 StaticGreedy 算法。

隨后沈華偉介紹了傳播預(yù)測(cè)。對(duì)于傳播預(yù)測(cè)現(xiàn)存的方法有兩大類(lèi):feature-based methods 和 temporal analysis。但是這些方法忽視了人群動(dòng)態(tài)是一個(gè)反映集體參與的過(guò)程。于是他們提出一種 process-based 方法。他認(rèn)為群體動(dòng)態(tài)是一個(gè) arrival process 能夠捕獲一個(gè)信息如何積累關(guān)注,基于特征的方法將會(huì)被合并到特征學(xué)習(xí)方法中。

在報(bào)告的最后,沈華偉做出了兩個(gè)預(yù)測(cè):

1、在未來(lái)會(huì)由 feature-engineering 變到 feature-learning;

2、明年社會(huì)網(wǎng)絡(luò)將會(huì)成為突破的一年。

劉知遠(yuǎn):語(yǔ)言表示學(xué)習(xí)與計(jì)算社會(huì)科學(xué)

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

劉知遠(yuǎn)的基本觀點(diǎn)是:計(jì)算社會(huì)科學(xué)研究比的是「想法」。他認(rèn)為語(yǔ)言是研究人類(lèi)社會(huì)的重要角度,他舉了很多有意思的例子。例如哈佛大學(xué)研究團(tuán)隊(duì)利用 google books 并掃描識(shí)別的 1800 年到 2000 年之間的 500 萬(wàn)種出版物,通過(guò)不同關(guān)鍵詞使用頻度隨時(shí)間的變化,分析人類(lèi)文化演進(jìn)特點(diǎn);斯坦福大學(xué) Leskovec 團(tuán)隊(duì)收集 9 千萬(wàn)篇新聞文章,利用引號(hào)抽取流行語(yǔ)句作為模因,通過(guò)跟蹤模因使用頻率變化能夠及時(shí)有效地把握美國(guó)政治、經(jīng)濟(jì)和文化生活。此外還有研究在線社區(qū)中語(yǔ)言使用變遷模式、利用名人出生死亡信息來(lái)研究文化中心變遷、研制微博關(guān)鍵詞應(yīng)用。劉知遠(yuǎn)認(rèn)為以上這些都是「前表示學(xué)習(xí)時(shí)代」——基于符號(hào)的表示,這些研究中都是把沒(méi)個(gè)詞表示為 one-hot 的模型。這種表示模型不能表示不同詞之間的關(guān)系。隨后他介紹了分布式表示學(xué)習(xí),在這種表示中對(duì)象均被表示為稠密、實(shí)值、低維向量;向量之間的距離則能夠表示不同詞之間的關(guān)系。

基于這種表示,word2vec 的學(xué)習(xí)模型開(kāi)始發(fā)展。這種學(xué)習(xí)模型在詞匯相似度計(jì)算上有非常好的效果,同時(shí)還能習(xí)得詞匯間隱含關(guān)系、發(fā)現(xiàn)詞匯語(yǔ)義層級(jí)、建立跨語(yǔ)言詞匯表示、建立視覺(jué)-文本聯(lián)合表示、檢測(cè)詞匯語(yǔ)義變遷。

隨后劉知遠(yuǎn)介紹了一份發(fā)表在《nature》上的來(lái)自認(rèn)知科學(xué)的研究成果,即語(yǔ)言分布式表示在大腦中的體現(xiàn),利用分布式表示繪制了詞匯的大腦地圖。研究發(fā)現(xiàn)不同的詞對(duì)腦區(qū)的激活并不是局限在某一個(gè)腦區(qū),而是分布在大腦各個(gè)部分;意義相關(guān)的詞匯所激活的大腦區(qū)域相似。

最后劉知遠(yuǎn)還詳細(xì)講述了計(jì)算社會(huì)科學(xué)的研究,包括融合 HowNet 的詞義表示、知識(shí)圖譜等。他認(rèn)為分布式表示提供了比符號(hào)表示更加強(qiáng)大的計(jì)算能力,具有更強(qiáng)更深的洞察能力,但關(guān)鍵也看如何能創(chuàng)造性地用起來(lái)。

楊洋:社交網(wǎng)絡(luò)中的群體用戶行為分析與表示學(xué)習(xí)

楊洋的報(bào)告內(nèi)容主要有兩個(gè)主題內(nèi)容,其一為群體用戶的行為分析,其二是面向網(wǎng)絡(luò)的表示學(xué)習(xí)。

針對(duì)群體用戶的行為分析,楊洋介紹了三個(gè)具體的研究案例。案例一從社會(huì)學(xué)角度出發(fā),研究移民者的都市夢(mèng)——感知移民群體的行為模式,并給出城市規(guī)劃導(dǎo)向性的建議。在這個(gè)案例中,楊洋通過(guò)使用上海全網(wǎng)通話的 5400 萬(wàn)用戶的 7 億條元數(shù)據(jù)(無(wú)通話內(nèi)容,只有撥打和接聽(tīng)數(shù)據(jù))研究了不同群體(本地人、老移民者、新移民者)的行為模式差異。他們發(fā)現(xiàn)新移民者融入新環(huán)境有三種模式:朝向本地人靠攏,朝向老移民者靠攏和移民失敗。他們發(fā)現(xiàn)移民者抵達(dá)都市后的前兩周的行為模式?jīng)Q定了他最終是否能夠移民成功。

隨后他講述了他在做的一個(gè)電信領(lǐng)域的案例——通過(guò)用戶通話記錄來(lái)判斷一個(gè)用戶是否是電話詐騙分子并挖掘詐騙分子的詐騙策略。數(shù)據(jù)集與上面的案例相同,但構(gòu)建了一個(gè)有向圖。他們發(fā)現(xiàn)詐騙分子在打出電話的頻率比普通用戶要高 200 倍之多、詐騙分子打出電話對(duì)象之間的關(guān)系極弱。在時(shí)間分布上發(fā)現(xiàn)詐騙分子打電話的時(shí)間分布與上班族類(lèi)似。

案例三是金融學(xué)領(lǐng)域的——根據(jù)用戶通話模式來(lái)判斷借貸是否會(huì)逾期還款的金融風(fēng)控,即給定一名沒(méi)有任何借款記錄的新客戶通過(guò)他的通話記錄來(lái)判斷他是否會(huì)逾期還款。

在總結(jié)社交網(wǎng)絡(luò)群體用戶行為分析的研究時(shí),楊洋說(shuō)很多情況下我們并不需要相關(guān)的專(zhuān)業(yè)知識(shí),但需要了解用戶的行為。他舉例說(shuō)為了研究王者榮耀用戶的行為,他和他的學(xué)生打了一個(gè)月的王者榮耀。

隨后楊洋介紹了他們組兩篇 AAAI 2018 收錄文章的內(nèi)容。其一為 Dynamic Network Embedding by Modeling Triadic Closure Process,介紹了愛(ài)你想動(dòng)態(tài)網(wǎng)絡(luò)的表示學(xué)習(xí);其二為 Representation Learning for Scale-free networks,介紹了面向無(wú)尺度網(wǎng)絡(luò)的表示學(xué)習(xí)。

韓家煒:大規(guī)模語(yǔ)料庫(kù)的多維分析

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

韓家煒在報(bào)告中分享了他們?cè)趯⒋髷?shù)據(jù)變成 Actionable Knowledge 的一些研究。首先他介紹了如何去做。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

在現(xiàn)在的大數(shù)據(jù)中有 80% 的數(shù)據(jù)都是以無(wú)結(jié)構(gòu)的文本、圖片、社交關(guān)系等表示。韓家煒介紹說(shuō)他們的研究組有三個(gè) keywords,分別為:結(jié)構(gòu)化(structuring)、網(wǎng)絡(luò)化(Networking)和挖掘(Mining)。因此他們的工作有三步曲,首先是怎么從文本數(shù)據(jù)中挖掘出隱含的結(jié)構(gòu);其次是將文本轉(zhuǎn)化為網(wǎng)絡(luò)和 TextCube;最后是從網(wǎng)絡(luò)和 TextCube 中挖掘出 Actionable Knowledge。

在挖掘數(shù)據(jù)之前,先將數(shù)據(jù)轉(zhuǎn)化為網(wǎng)絡(luò)和 TextCube,韓家煒認(rèn)為這樣處理更 powerful,他舉了一個(gè)論文 Co-Authors 預(yù)測(cè)的例子說(shuō)明這個(gè)問(wèn)題。

隨后韓家煒介紹了近期的幾項(xiàng)從無(wú)結(jié)構(gòu)文本中挖掘結(jié)構(gòu)的工作。首先他介紹了短語(yǔ)挖掘的工作,即把原始的語(yǔ)料庫(kù)翻譯成高質(zhì)量的短語(yǔ)和分段的語(yǔ)料庫(kù)。其次是讓短語(yǔ)有意義,他介紹了實(shí)體/關(guān)系的解析工作。隨后,他介紹了 MetaPAD 工作,即元模式驅(qū)動(dòng)的來(lái)自大量文本語(yǔ)料庫(kù)的屬性發(fā)現(xiàn)。最后他還介紹了多方面分類(lèi)挖掘(Multifaceted Taxonomy Mining)。

做以上這些研究的目的是用來(lái)建立一個(gè)多維的 TextCube。韓家煒介紹了如何將文件正確地放入一個(gè) Cube Cell,并用大量數(shù)據(jù)和少量 labels來(lái)構(gòu)建 TextCubes。韓家煒認(rèn)為要想把 Big Data 變成 Big Knowledge,很重要的一條就是要有結(jié)構(gòu);現(xiàn)在這種結(jié)構(gòu)有兩種,其一是異質(zhì)網(wǎng)絡(luò),其二是 TextCube;用這兩種結(jié)構(gòu)去挖掘出知識(shí)是很 powerful 的;現(xiàn)在如何將異質(zhì)網(wǎng)絡(luò)和 TextCube 結(jié)合起來(lái),還沒(méi)有解決。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

從無(wú)結(jié)構(gòu)數(shù)據(jù)到知識(shí)是一條很長(zhǎng)的路,韓家煒說(shuō)近二十年所做的工作正是沿著這條路走的;現(xiàn)在這條路還只是一條小路,期望最終能成為一條康莊大道。 

AI科技評(píng)論隨后將整理 韓家煒 完整報(bào)告,敬請(qǐng)期待!

Panel

除了這些精彩的報(bào)告外,ADL 還組織了一場(chǎng)精彩異常的 Panel 環(huán)節(jié)。Panel 上有韓家煒、劉知遠(yuǎn)、石川、沈華偉、楊洋以及從現(xiàn)場(chǎng)選出的一位學(xué)員。下面雷鋒網(wǎng)整理出 Panel 環(huán)節(jié)的部分精彩問(wèn)答。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

提問(wèn):社交網(wǎng)絡(luò)研究的挑戰(zhàn)是什么?

劉知遠(yuǎn)認(rèn)為社交網(wǎng)絡(luò)研究的挑戰(zhàn)有兩個(gè)層面,第一是:知識(shí)是一個(gè)重要的切入角度;第二,從技術(shù)上 embedding 和 Deep learning 會(huì)成為重要的技術(shù)手段。

韓家煒認(rèn)為從無(wú)結(jié)構(gòu)數(shù)據(jù)中提取出有結(jié)構(gòu)數(shù)據(jù),從結(jié)構(gòu)數(shù)據(jù)中提取出網(wǎng)絡(luò)和 textCube,以及從后兩者中提取出知識(shí)極為重要。要想自動(dòng)化,很重要的一條就是從大量數(shù)據(jù)中挖掘出結(jié)構(gòu)來(lái)。

沈華偉提出一種比較新穎的觀點(diǎn),我們總是把網(wǎng)絡(luò)化數(shù)據(jù) embedding 到一個(gè)空間中,那么是否可以反其道而行之呢?也即是把算子遷移到網(wǎng)絡(luò)上,還是把網(wǎng)絡(luò)數(shù)據(jù)遷移到算子上。

楊洋認(rèn)為無(wú)論是 embedding 還是社會(huì)計(jì)算學(xué),做的算法都缺少可解釋性。

提問(wèn):如何和其他領(lǐng)域的學(xué)者的領(lǐng)域知識(shí)進(jìn)行融合?

沈華偉認(rèn)為和其他領(lǐng)域的學(xué)者合作主要就三件事情:

1、看他們關(guān)心什么,我們能否幫上忙;

2、看他們研究的套路是什么,我們能否借鑒;

3、做完上面兩步,你就會(huì)發(fā)現(xiàn)其實(shí)大家做的都一樣,只是看問(wèn)題的角度不同、語(yǔ)言不同。

所以其實(shí)一點(diǎn)都不難,關(guān)鍵是你抱著什么目的去做這個(gè)事。

提問(wèn):領(lǐng)域知識(shí)在當(dāng)前深度學(xué)習(xí)發(fā)展如此火熱下怎么應(yīng)用?

韓家煒認(rèn)為深度學(xué)習(xí)仍在發(fā)展。現(xiàn)在深度學(xué)習(xí)仍然需要大量 label data。所以如果能將領(lǐng)域知識(shí)和深度學(xué)習(xí)結(jié)合起來(lái)可能會(huì)讓學(xué)習(xí)更好。此外,現(xiàn)在很多學(xué)者在提出怎么去做小樣本數(shù)據(jù)的深度學(xué)習(xí),所以現(xiàn)在一個(gè)很重要的矛盾就是 Big Data 和 Little Data 之間的矛盾?,F(xiàn)在不是領(lǐng)域知識(shí)沒(méi)用,而是 Deep Learning 還沒(méi)有走到應(yīng)用領(lǐng)域知識(shí)這一步。

雷鋒網(wǎng)總結(jié):本期 ADL 講習(xí)班由唐杰和劉知遠(yuǎn)等老師組織,邀請(qǐng)了國(guó)內(nèi)外一眾大牛學(xué)者,包括數(shù)據(jù)挖掘領(lǐng)域頂尖學(xué)者韓家煒和Philip S Yu等教授,以及諸如胡祥恩、James A. Evans 等心理學(xué)和社會(huì)學(xué)的知名學(xué)者。三天的時(shí)間里,13位學(xué)者分別從各個(gè)角度對(duì)社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘進(jìn)行了詳細(xì)的、全方位的解讀。

從學(xué)員的角度來(lái)看,可以發(fā)現(xiàn)不僅僅是計(jì)算機(jī)學(xué)科的人對(duì)社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘感興趣,一些心理學(xué)、管理學(xué)等專(zhuān)業(yè)的學(xué)生也前來(lái)聽(tīng)講,甚至還包括許多高校老師、企業(yè)技術(shù)人員以及國(guó)家安全部門(mén)的一些人員。

有這么多的人對(duì)這一領(lǐng)域抱有濃厚的興趣,或許如沈華偉老師所預(yù)測(cè)的,明年社交網(wǎng)絡(luò)可能會(huì)是突破的一年。

本次課程早早就報(bào)滿,受場(chǎng)地限制并未提供更多名額,而且 CCF 還推出更多 ADL課程。為了讓更多人工智能愛(ài)好者、業(yè)界從業(yè)者、科研研究者們都能看到 CCF ADL 課程,人工智能培訓(xùn)平臺(tái) AI慕課學(xué)院獲 CCF 獨(dú)家線上視頻版權(quán),點(diǎn)擊報(bào)名鏈接掃描下面?二維碼即可完整再現(xiàn)13位學(xué)者現(xiàn)場(chǎng)授課、交流的場(chǎng)景。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

相關(guān)文章:

回顧:7位國(guó)內(nèi)最頂尖的計(jì)算學(xué)者齊聚CCF ADL,講解驅(qū)動(dòng)城市智能未來(lái)的技術(shù)

回顧:國(guó)內(nèi)人機(jī)交互專(zhuān)家齊聚CCF-ADL,從觸覺(jué)交互到認(rèn)知行為智能計(jì)算你想知道的都在這兒

CCF ADL 85 智能商業(yè)講習(xí)班回顧:AI+大數(shù)據(jù)如何在商業(yè)世界大展身手?

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

CCF ADL 87講習(xí)班回顧:韓家煒等13位大牛全方位解析社交網(wǎng)絡(luò)和數(shù)據(jù)挖掘

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)