0
本文作者: AI科技評論 | 編輯:郭奕欣 | 2018-08-02 22:41 | 專題:SMP 2018 |
由中國中文信息學(xué)會社會媒體處理專委會主辦、哈爾濱工業(yè)大學(xué)承辦的第七屆全國社會媒體處理大會(SMP 2018)將于 2018 年 8 月 2 日- 4 日在哈爾濱召開。雷鋒網(wǎng)作為獨家戰(zhàn)略媒體帶來合作報道。SMP 專注于以社會媒體處理為主題的科學(xué)研究與工程開發(fā),為傳播社會媒體處理最新的學(xué)術(shù)研究與技術(shù)成果提供廣泛的交流平臺,旨在構(gòu)建社會媒體處理領(lǐng)域的產(chǎn)學(xué)研生態(tài)圈,成為中國乃至世界社會媒體處理的風(fēng)向標(biāo)。
8 月 2 日舉行了第十期前沿技術(shù)講習(xí)班(ATT 10),此次講習(xí)班邀請四位知名學(xué)者圍繞網(wǎng)絡(luò)表示學(xué)習(xí)、因果推論、深度強(qiáng)化學(xué)習(xí)及數(shù)據(jù)可視化四個方向進(jìn)行講座。講習(xí)班由浙江大學(xué)楊洋助理教授擔(dān)任主席。
在上午的講習(xí)班環(huán)節(jié)中,北京大學(xué)信息科學(xué)技術(shù)學(xué)院的宋國杰副教授帶來了《大規(guī)模網(wǎng)絡(luò)表示學(xué)習(xí)》的分享,圍繞網(wǎng)絡(luò)表示學(xué)習(xí)的研究展開了詳細(xì)而系統(tǒng)的闡述。
圖片來源:哈工大 SCIR 李家琦
基于現(xiàn)實世界中的大量數(shù)據(jù)都是以網(wǎng)絡(luò)形式存在的,盡管目前計算機(jī)的算力在不斷增強(qiáng),但考慮到數(shù)據(jù)的高維性、數(shù)據(jù)的稀疏性、數(shù)據(jù)的大體量等多種因素,如何圍繞大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)開展機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘研究,也成為了產(chǎn)學(xué)高度關(guān)注的重要議題。
他首先從線性與非線性的角度回顧了發(fā)展歷程,并強(qiáng)調(diào)了表示學(xué)習(xí)的研究目標(biāo)主要集中在兩個方面,一個是還原網(wǎng)絡(luò)原始節(jié)點中的關(guān)系;另一個是維護(hù)節(jié)點在網(wǎng)絡(luò)空間中的性質(zhì)。他在講座中還介紹了 Word2Vec、Adjacency-based similarity、LINE 及 Random-walk Approach 等四個經(jīng)典的表示學(xué)習(xí)方法。
他結(jié)合各項研究的特點做出總結(jié),并從多個方面進(jìn)行了網(wǎng)絡(luò)表示學(xué)習(xí)的進(jìn)一步延伸,分別從靜態(tài)數(shù)據(jù)到動態(tài)數(shù)據(jù)(如 depthLGP、Dynamic Triad Model 等工作)、從節(jié)點到社群(如 M-NMF 等工作)、從同質(zhì)到異質(zhì)(如 meta path 等工作)等多個方面介紹了一系列代表性進(jìn)展。
隨后,他圍繞多層次網(wǎng)絡(luò)表示學(xué)習(xí)、動態(tài)網(wǎng)絡(luò)表示學(xué)習(xí)及基于網(wǎng)絡(luò)表示學(xué)習(xí)的實體標(biāo)準(zhǔn)化等三個角度深入介紹團(tuán)隊的相關(guān)工作。最后,他建議未來可以圍繞 Graph Neural Network、大規(guī)模 Network Embedding、拓展 embedding space 等方面展開更多研究。
接下來,清華大學(xué)政治學(xué)系孟天廣副教授帶來了題為《計算社會科學(xué)新進(jìn)展:從探索性分析到因果推論》的主題報告。
圖片來源:哈工大 SCIR 李家琦
報告伊始,他闡述了大數(shù)據(jù)分析與因果推論的關(guān)系,他表示,大數(shù)據(jù)分析是以知識發(fā)現(xiàn)為導(dǎo)向的,數(shù)據(jù)挖掘即從數(shù)據(jù)中自動抽取模式,然后通過解釋和評價轉(zhuǎn)換成最終用戶可理解的知識。因果推論視角下的大數(shù)據(jù)分析則包括描述性推論、因果性推論、機(jī)制性推論。
他進(jìn)一步表明計算社會科學(xué)中重視因果關(guān)系有如下五點原因:一是好奇心驅(qū)動,二是解釋性知識更關(guān)鍵,三是需要將社科應(yīng)用到社會場景,四是識別好的因果關(guān)系可以幫助我們更有效地做預(yù)測,五是要賦予數(shù)據(jù)挖掘社會意義。
帶來計算社會科學(xué)方法論的進(jìn)展之后,他也回應(yīng)了目前對大數(shù)據(jù)方法的一些批評,如探究「相關(guān)關(guān)系」而非「因果關(guān)系」,在數(shù)據(jù)采集過程中涉及到個人隱私保護(hù)問題等等。他同時指出,大數(shù)據(jù)方法也帶來了很多機(jī)遇。比如數(shù)據(jù)模態(tài)更加多元,是「全量數(shù)據(jù)」而不是「樣本數(shù)據(jù)」,是「真實數(shù)據(jù)」而不是「設(shè)計的數(shù)據(jù)」,數(shù)據(jù)里蘊(yùn)含豐富的時空信息可以用來做數(shù)據(jù)融合等等。而在經(jīng)濟(jì)上,也具備低成本、時效性和高效率三個特征,此外在學(xué)術(shù)影響上也極具優(yōu)勢。
此后,他詳述了用大數(shù)據(jù)做因果推論的四個發(fā)展方向,一是大數(shù)據(jù)+計量分析,即用大數(shù)據(jù)的方法降維、測量,然后再做回歸、匹配等,二是大數(shù)據(jù)+小數(shù)據(jù)分析,即在大數(shù)據(jù)里抽取小樣本,進(jìn)一步檢驗?zāi)P图僭O(shè),三是大數(shù)據(jù)+時空模型,進(jìn)行一些因果推斷和可視化,四是大數(shù)據(jù)分析+實驗設(shè)計。
他表示,在大數(shù)據(jù)分析、因果推論上有一系列工具:例如統(tǒng)計分析方法,如主成分分析、線性回歸、非線性回歸、空間計量等,還有一些現(xiàn)場實驗、自然實驗等實驗方法。
在最后,他詳述了這四個方向的若干方法和工具,并舉了一系列實例,如文本匹配、立案登記制等等。
下午,清華大學(xué)計算機(jī)系黃民烈副教授分享了《深度強(qiáng)化學(xué)習(xí)及其在自然語言處理的應(yīng)用》。他首先介紹了強(qiáng)化學(xué)習(xí)的基本概念,作為「首個通過交互進(jìn)行學(xué)習(xí)的模型」,強(qiáng)化學(xué)習(xí)通過對策略給予不同的 reward,在試錯的過程中達(dá)成最優(yōu)策略。由于具有序列決策、嘗試試錯、延遲獎勵等特點,深度強(qiáng)化學(xué)習(xí)在游戲、機(jī)器人、自動駕駛等多個領(lǐng)域擁有廣泛的應(yīng)用場景。
圖片來源:哈工大 SCIR 李家琦
基于 value-based(Q-Learning)、policy based 和 actor-critic 的方法,他對其代表方法及基本思想做出了闡述,他在演講中也總結(jié)了強(qiáng)化學(xué)習(xí)的主要特點,1)當(dāng)前決策會影響未來的決策;2)強(qiáng)化學(xué)習(xí)的訓(xùn)練過程本質(zhì)上是一個試錯的過程;3)以長期 reward 的最大化為導(dǎo)向。
在強(qiáng)化學(xué)習(xí)應(yīng)用于 NLP 領(lǐng)域當(dāng)中,面臨離散反饋、action space 的高維性等多種層面的挑戰(zhàn),但在無直接監(jiān)督信息、弱信號場景中,可以利用強(qiáng)化學(xué)習(xí)的試錯和概率探索能力,通過編碼先驗或領(lǐng)域知識,進(jìn)而達(dá)成學(xué)習(xí)目標(biāo)。相應(yīng)地,從檢索和推理層面,可以借助強(qiáng)化學(xué)習(xí)進(jìn)行模型、文本抽取的工作;從樣本選擇上,可以做樣本去噪、標(biāo)記糾錯等工作;另外在策略優(yōu)化上,也可以進(jìn)行搜索策略優(yōu)化、語言生成等探索。
在最后,他總結(jié)了強(qiáng)化學(xué)習(xí)在自然語言處理應(yīng)用中的關(guān)鍵點,包括 1)將任務(wù)轉(zhuǎn)化化自然序列決策問題;2)明確強(qiáng)化學(xué)習(xí)的「試錯」本質(zhì);3)在 reward 中加入先驗知識的理解;4)在無監(jiān)督或弱監(jiān)督的場景下行之有效。但與此同時,我們也應(yīng)看到暖啟動的重要性,此外也應(yīng)考慮在完全監(jiān)督及 Large Action Space 問題下效果提升的有限性,在訓(xùn)練技巧及調(diào)參上也對研究者提出了更高的要求。
最后一位演講的嘉賓是同濟(jì)大學(xué)設(shè)計創(chuàng)意學(xué)院教授、智能大數(shù)據(jù)可視化實驗室主任曹楠,他帶來了數(shù)據(jù)可視化的一系列介紹以及可視化在異常檢測中的應(yīng)用。
圖片來源:哈工大 SCIR 李家琦
演講伊始,他對同濟(jì)大學(xué)智能大數(shù)據(jù)可視化實驗室進(jìn)行了簡單介紹,實驗室橫跨多個學(xué)科,研究領(lǐng)域包括數(shù)據(jù)可視化、人機(jī)交互、機(jī)器學(xué)習(xí),目前正在招生中。
隨后,他介紹了數(shù)據(jù)可視化的基礎(chǔ)概念,可視化一個很重要的功能就是數(shù)據(jù)解釋,當(dāng)數(shù)據(jù)量非常大,結(jié)果很復(fù)雜時,可視化在理解數(shù)據(jù)中可以發(fā)揮重大作用。他表示,廣義來講,任何能創(chuàng)造圖像、動畫等的技術(shù)都可以稱為可視化,數(shù)據(jù)可視化是可視化的一個分支,數(shù)據(jù)可視化分為三個子領(lǐng)域:科學(xué)可視化、信息圖,信息可視化,這里重點討論的是信息可視化。
他舉了拿破侖對莫斯科進(jìn)軍路線的一張圖來說明可視化的作用,這張圖用二維圖表一目了然地展現(xiàn)了五六維的信息。他強(qiáng)調(diào),信息可視化不是藝術(shù),也不是計算機(jī)圖形,也不是處理圖像,而是圍繞數(shù)據(jù),揭示數(shù)據(jù)真諦。在統(tǒng)計分析時會掩蓋數(shù)據(jù)的真諦,可視化可以幫助從上下文中觀察數(shù)據(jù)。
他提到大數(shù)據(jù)可視化的三點挑戰(zhàn):視覺混亂、性能瓶頸、人的認(rèn)知有限。接下來他闡述了創(chuàng)造可視化的幾個關(guān)鍵點:理解數(shù)據(jù),知道用戶和任務(wù);設(shè)計要能達(dá)到信、達(dá)、雅;布局,即解優(yōu)化方程,但由于時間限制,往往沒法得到全局最優(yōu)解;此外,為了讓人們觀察到數(shù)據(jù)的變化,必須有動畫。
之后,他介紹了一些流行的可視化開源工具包,例如 D3.js, Tableau,在可視化相關(guān)知識的學(xué)習(xí)上,他推薦了《Visualization Analysis&Design》一書。另外,他介紹了可視化相關(guān)的重要學(xué)術(shù)會議,包括 IEEE InfoVis/VAST/SciVis。
在介紹完可視化一系列基礎(chǔ)概念之后,他提到用可視化來查找社交媒體中的異常用戶,他表示,匿名用戶的行為可能會威脅到整個社區(qū),這時候找出這些異常用戶意義重大。這時候面臨的挑戰(zhàn)有兩點:很難定義何為正常和異常,很難獲得有標(biāo)簽的數(shù)據(jù)來訓(xùn)練模型。之后,他舉了他們實驗室在異常檢測方面的一連串的工作,研究主要分兩個階段,第一階段是群體異常行為的分析,第二階段是個體異常分析,他們此前的相關(guān)工作有如 FluxFlow 謠言檢測,TargetVue 用戶行為畫像等。之后,他也介紹了異常檢測相關(guān)競賽 Bot Design/Detection。
至此,講習(xí)班內(nèi)容全部結(jié)束,在明后兩天,SMP 2018 將迎來六大特邀報告,八大分論壇、技術(shù)測評以及口頭報告等多項精彩環(huán)節(jié),雷鋒網(wǎng)也將持續(xù)為大家?guī)韺n}報導(dǎo),敬請期待。雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。