丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能學術 正文
發(fā)私信給MrBear
發(fā)送

0

Philip S. Yu 團隊最新綜述!社區(qū)發(fā)現(xiàn)的深度學習方法:進展、挑戰(zhàn)、機遇

本文作者: MrBear 2020-05-16 11:16
導語:當社區(qū)發(fā)現(xiàn)遇上深度學習,會擦出怎樣的火花呢?

雷鋒網(wǎng)AI科技評論按:

社區(qū)發(fā)現(xiàn)(Community Detection)是網(wǎng)絡科學領域中一個經久不衰的重要問題。

隨著深度學習的發(fā)展,研究者們逐漸從傳統(tǒng)的統(tǒng)計推斷和譜聚類等方法中解放了出來。那么,深度學習時代的社區(qū)發(fā)現(xiàn)工作有哪些特點,研究者們遇到了哪些挑戰(zhàn),有哪些前景光明的研究方向呢?

近日,IJCAI 2020 上發(fā)表的一篇 Survey 文章,完整闡釋了這一研究方向的方法、挑戰(zhàn)和機遇。論文來自數(shù)據(jù)挖掘領域大牛 Philip S. Yu 團隊。

Philip S. Yu 團隊最新綜述!社區(qū)發(fā)現(xiàn)的深度學習方法:進展、挑戰(zhàn)、機遇

論文標題:

Deep Learning for Community Detection: Progress, Challenges and Opportunities 

社區(qū)發(fā)現(xiàn)(Community Detection)是網(wǎng)絡科學領域中一個經久不衰的重要問題。隨著深度學習的發(fā)展,研究者們逐漸從傳統(tǒng)的統(tǒng)計推斷和譜聚類方法中解放了出來。那么,深度學習時代的社區(qū)發(fā)現(xiàn)工作有哪些特點,研究者們遇到了哪些挑戰(zhàn),有哪些前景光明的研究方向呢?

網(wǎng)絡中的社區(qū)指的是一組由節(jié)點以及與其相連的邊緊密地形成的實體。社區(qū)發(fā)現(xiàn)旨在遵循「社區(qū)中的節(jié)點緊密相連,不同社區(qū)間的節(jié)點稀疏相連」的規(guī)則對實體集合進行聚類。包括譜聚類、統(tǒng)計推斷在內的傳統(tǒng)社區(qū)發(fā)現(xiàn)方法在處理高維圖數(shù)據(jù)時存在計算速度的問題。因此,近年來,深度學習方法被廣泛地應用。

在本文中,作者特別調研了社區(qū)發(fā)現(xiàn)的深度學習方法這一研究領域中的最新進展,并根據(jù)用到的深度神經網(wǎng)絡、深度圖嵌入、圖神經網(wǎng)絡對這些方法進行分類。由于目前深度學習的能力仍然不能滿足處理復雜網(wǎng)絡結構的需求,本文作者指出了當前該領域面臨的挑戰(zhàn)和研究機遇。

一、社區(qū)發(fā)現(xiàn)

網(wǎng)絡是有兩種基本的實體(即節(jié)點和邊)形成的。

根據(jù)圖理論,「社區(qū)」是一種內部節(jié)點緊密相連的子圖,它遵循以下特定的規(guī)則:

(1)社區(qū)內的節(jié)點緊密相連;

(2)不同社區(qū)中的節(jié)點稀疏相連。

人們也將社區(qū)看做一種聚類簇,其中相同社區(qū)內的節(jié)點可以共享共用的特性和/或扮演類似的角色。

這里根據(jù) Radicchi 等人基于網(wǎng)絡統(tǒng)計分析給出的定義展開討論。根據(jù)節(jié)點在社區(qū)內部和外部的度,我們可以將社區(qū)分為兩類:強社區(qū)和弱社區(qū)。 節(jié)點的「內部度」代表將該節(jié)點與同一個社區(qū)中其它節(jié)點連接起來的邊數(shù),節(jié)點的「外部度」則代表將該節(jié)點與屬于其它社區(qū)的節(jié)點連接起來的邊數(shù)。一個弱社區(qū)是其中的節(jié)點的內部度之和大于外部度之和的子圖。一個強社區(qū)是其中每個節(jié)點的內部度都大于外部度的子圖。針對社區(qū)的網(wǎng)絡結構,本文采用了強社區(qū)的定義。

社區(qū)發(fā)現(xiàn)可以幫助我們理解網(wǎng)絡內在的模式和功能。

在現(xiàn)實世界的應用中,社區(qū)將復雜系統(tǒng)中的信息聚集了起來。舉例而言,

  • Chen、Yuan 等人發(fā)現(xiàn)在「蛋白質-蛋白質」交互(PPI)網(wǎng)絡中,被聚合到社區(qū)中的蛋白質具有相似的生物學功能;

  • Chen 、Redner等人,在論文引用網(wǎng)絡中,通過社區(qū)發(fā)現(xiàn)技術確定通過論文引用連接起來的課題的重要性、相互關聯(lián)以及演變情況;

  • Zhang 等人,在企業(yè)網(wǎng)絡中,通過研究離線的公司內部數(shù)據(jù)源以及在線的企業(yè)社交關系將雇員分組到不同的社區(qū)中;

  • Yang 等人指出,在線社交網(wǎng)絡中(例如 Twitter 和 Facebook)擁有共同的興趣或朋友的用戶可能來自同一個社區(qū)(如圖 1 所示)。

Philip S. Yu 團隊最新綜述!社區(qū)發(fā)現(xiàn)的深度學習方法:進展、挑戰(zhàn)、機遇

圖 1:社交網(wǎng)絡中的社區(qū)發(fā)現(xiàn)示例。根據(jù)個體之間的緊密度,網(wǎng)絡被劃分為兩個社區(qū),即包含三個節(jié)點的社區(qū) C_1 和包含四個節(jié)點的社區(qū) C_2。

傳統(tǒng)的社區(qū)發(fā)現(xiàn)方法大部分都是基于統(tǒng)計推斷和機器學習發(fā)展出來的。例如, 在統(tǒng)計學領域非常具有代表性的社區(qū)發(fā)現(xiàn)方法「隨機分塊模型」(SBM)被廣泛用于描述社區(qū)是如何形成的。然而,在處理當下的復雜數(shù)據(jù)及和社交場景時,這些傳統(tǒng)的方法面臨著許多問題。此外,在機器學習領域,發(fā)現(xiàn)社區(qū)的工作往往被看做一個圖上的聚類問題。Ng 等人用特征向量(例如鄰接矩陣和 Laplacian 矩陣)實現(xiàn)了將節(jié)點劃分到社區(qū)中的譜聚類方法,然而這種方法在稀疏網(wǎng)絡上的性能較差。

同時,對于預設的社區(qū)數(shù)目的要求也特別限制了依賴統(tǒng)計推斷的模型的研發(fā)。在網(wǎng)絡分析領域中,傳統(tǒng)的方法并沒有考慮到節(jié)點的屬性,而這些屬性描述了特征的豐富信息。此外,由于過高的計算復雜度,動態(tài)方法也很難被應用于大規(guī)模網(wǎng)絡??偠灾?,處理由圖及其屬性、大規(guī)模網(wǎng)絡和動態(tài)環(huán)境形成的高維數(shù)據(jù)需要更強大的技術,從而同時兼顧高性能和計算速度。

深度學習使計算模型可以學習到具有多層次抽象的數(shù)據(jù)表征。許多計算模型和算法都需要對以網(wǎng)絡結構形式存在的數(shù)據(jù)進行表征學習。深度學習技術在學習非線性特征時具有很大的優(yōu)勢。這一點在諸如計算機視覺、自然語言處理等領域中都取得了廣泛的成功,在這些領域中數(shù)據(jù)有著內在的關系。在網(wǎng)絡分析領域,深度學習可以有效地通過多層深度神經網(wǎng)絡降低數(shù)據(jù)維度,從而完成社區(qū)發(fā)現(xiàn)、節(jié)點分類、鏈接預測等任務。

這里重點研究深度學習在社區(qū)發(fā)現(xiàn)任務中的應用的新研究趨勢,Philip S. Yu等人的這篇綜述貢獻有:

(1)分析了將深度學習方法用于社區(qū)發(fā)現(xiàn)的優(yōu)勢;

(2)從技術的視角,總結了目前最先進的研究,并對其進行分類;

(3)討論了仍然存在的挑戰(zhàn),并指出了具有前景的未來工作的機遇。

據(jù)AI科技評論所知,這篇綜述也是首次全面回顧深度學習在社區(qū)發(fā)現(xiàn)中的應用,對研究人員和技術專家理解深度學習和社交網(wǎng)絡領域的發(fā)展趨勢有著巨大幫助。

Philip S. Yu 團隊最新綜述!社區(qū)發(fā)現(xiàn)的深度學習方法:進展、挑戰(zhàn)、機遇

圖 2:社區(qū)發(fā)現(xiàn)之深度學習:進步、挑戰(zhàn)和機遇。

二、何為社區(qū)發(fā)現(xiàn)?

簡單來說,社區(qū)發(fā)現(xiàn),即從網(wǎng)絡 G 中發(fā)現(xiàn)社區(qū) C。

這里提到的網(wǎng)絡是一種特殊的圖,它對現(xiàn)實世界中的系統(tǒng)(例如,互聯(lián)網(wǎng)、學術合作網(wǎng)絡以及社交群組)中的復雜關系進行了抽象。在這里,網(wǎng)絡的概念主要強調的是其拓撲結構。

定義 1(網(wǎng)絡 G)

基于圖理論,有權網(wǎng)絡可以被表征為 G=(V,E,W),而無權網(wǎng)絡可以被表征為 G=(V,E),其中 V 和 E 分別代表節(jié)點的集合和邊的集合,W 代表 E 相應的權值。每條邊通過權值描述連接強度或者容量。我們可以將無權圖的 W 視為1,將其從圖 G 中去除。

子圖 g?G 是對于圖的一種劃分,它保持了原始的網(wǎng)絡結構。子圖的劃分遵循預先定義好的規(guī)則。根據(jù)不同的規(guī)則可能得到不同形式的子圖。社區(qū)是一種表征真實社交現(xiàn)象的子圖;也就是說,在群組中存在一組具有緊密關系的對象。這里遵循由 Radicchi 定義的強社區(qū)的概念。

定義 2(社區(qū) C)

社區(qū)是一組網(wǎng)絡中相互聯(lián)系的子圖。社區(qū)中的節(jié)點具有密集的連接,而不同社區(qū)之間的節(jié)點具有稀疏的連接。根據(jù)一種將節(jié)點聚類到不同群組中的網(wǎng)絡劃分方法給出一個社區(qū) C_i,我們得到 C={C_1,C_2,...,C_k},其中 k 代表可以從原始網(wǎng)絡中被劃分出的社區(qū)數(shù)。被聚合到社區(qū) C_i 中的節(jié)點 v 滿足:v 到社區(qū)內每個節(jié)點的內部度大于其外部度。

三、為什么要使用深度學習進行社區(qū)發(fā)現(xiàn)?

與其他機器學習方法相比,深度學習的明顯優(yōu)勢是它能夠將高維數(shù)據(jù)編碼到一個新的特征表征中。通過使用以圖結構的形式組織的數(shù)據(jù)表征節(jié)點之間的聯(lián)系,許多深度學習方法都可以學習到節(jié)點、鄰域以及子圖的模式。在多數(shù)現(xiàn)實場景中,數(shù)據(jù)缺乏節(jié)點標簽信息和關于社區(qū)的先驗信息,而深度學習在無監(jiān)督學習的任務中體現(xiàn)出了優(yōu)勢。除了簡單地利用網(wǎng)絡拓撲來發(fā)現(xiàn)社區(qū)之外,一些方法還將語義描述作為數(shù)據(jù)中的節(jié)點屬性加以研究。在傳統(tǒng)社區(qū)發(fā)現(xiàn)方法中,這類方法主要基于鄰接矩陣和節(jié)點屬性矩陣。然而,深度學習可以構建更有效的節(jié)點屬性和社區(qū)結構表征。

因此,深度學習填平了傳統(tǒng)社區(qū)發(fā)現(xiàn)方法中存在的關鍵短板。為了實現(xiàn)這一目標,近年來的工作指出了一些具有前景的研究方向:將深度學習模型應用于社區(qū)發(fā)現(xiàn),以及基于社區(qū)的特性修改深度學習模型。將深度學習應用于社區(qū)發(fā)現(xiàn)的前景可以被表述為:

(1)通過深度學習模型提升傳統(tǒng)社區(qū)發(fā)現(xiàn)方法的性能;

(2)從對于深度學習至關重要的特征維度上引入更多的信息;

(3)從網(wǎng)絡實體的拓撲和屬性入手,同時提升模型的學習性能和魯棒性;

(4)現(xiàn)在可以更好地從復雜的相關結構中對大規(guī)模網(wǎng)絡進行檢測。

四、基于深度學習的社區(qū)發(fā)現(xiàn)

為了對近年來將深度學習用于社區(qū)發(fā)現(xiàn)的研究進展進行概述,Philip等人從技術的角度總結了現(xiàn)有的方法。具體而言,他們首先對具有影響力的社區(qū)發(fā)現(xiàn)深度學習方法進行了分類。在每一類中,他們概述了框架、模型以及算法的技術貢獻。

為了研究近年來被應用于社區(qū)發(fā)現(xiàn)的深度學習方法,圖 2 描述了相關深度學習方法的詳細分類情況,并相應地附上了總結出來的挑戰(zhàn)。本章將從基于深度神經網(wǎng)絡、基于深度圖嵌入、以及基于圖神經網(wǎng)絡的社區(qū)發(fā)現(xiàn)方法三個方面展開敘述。

4.1 基于深度神經網(wǎng)絡的社區(qū)發(fā)現(xiàn)

深度神經網(wǎng)絡在對復雜的關系進行建模和發(fā)現(xiàn)的任務中具有天然的優(yōu)勢??紤]到現(xiàn)有的深度神經網(wǎng)絡模型在社區(qū)發(fā)現(xiàn)領域的流形程度,作者選取了基于卷積神經網(wǎng)絡(CNN)、基于自編碼器、基于生成對抗網(wǎng)絡(GAN)的社區(qū)發(fā)現(xiàn)方法進行調研。

基于 CNN 的社區(qū)發(fā)現(xiàn)

CNN 的關鍵組件包含卷積操作和對卷積層結果的最大池化操作。卷積操作利用卷積核降低計算開銷。隨后,最大池化操作被用于特征提取,這保證了 CNN 的魯棒性。

得益于 CNN 的發(fā)展,Xin 等人設計了一種用于社區(qū)發(fā)現(xiàn)的新型 CNN,并提出了一種用于拓撲結構不完整的網(wǎng)絡的有監(jiān)督算法。由于社區(qū)發(fā)現(xiàn)被廣泛看做一種無監(jiān)督聚類任務,科研人員對基于無監(jiān)督 CNN 的社區(qū)發(fā)現(xiàn)進行了研究。人們研發(fā)出了在 CNN 框架下的系數(shù)矩陣卷積,從而專門進行對高度稀疏的鄰接矩陣的表征。

基于自編碼器的社區(qū)發(fā)現(xiàn)

棧式自編碼器是一種深度學習模型,它在社區(qū)發(fā)現(xiàn)任務中表現(xiàn)出了強大的性能,可以表征網(wǎng)絡矩陣的非線性特征。研究者們發(fā)現(xiàn)自編碼器和譜聚類在譜矩陣的低維近似方面有相似的框架,并受此啟發(fā)將自編碼器引入了社區(qū)發(fā)現(xiàn)領域。此后,Cao 等人提出了一種將網(wǎng)絡拓撲和節(jié)點屬性相結合的棧式自編碼器,它提升了深度神經網(wǎng)絡隱層的泛化能力。為了進一步解決網(wǎng)絡拓撲和節(jié)點屬性之間的匹配問題,Cao 等人通過引入一個控制這種匹配的折中的自適應參數(shù),研發(fā)了一種帶有圖正則化的自編碼器方法。

著眼于網(wǎng)絡拓撲,Xie 等人提出在深度自編碼器中對鄰接矩陣進行變換,從而有效地學到節(jié)點相似度。同時,Bhatia 和 Rani 提出的自編碼器通過對隨機游走序列建模學習節(jié)點的結構,他們通過優(yōu)化社區(qū)結構的模塊度對這種序列進行調優(yōu)。

為了避免預設社團的數(shù)量,Bhatia 和 Rani 提出了一種層級棧式自編碼器,他們找出種子節(jié)點,基于網(wǎng)絡結構有效地將其它節(jié)點加入到社區(qū)中。此后,該領域的研究旨在自適應地學習而不是預定義社區(qū)結構。Choong 等人提出的方法大大地提升了訓練損失驗證階段的計算效率。這種自動選擇機制保證了模型基于社區(qū)標準分配節(jié)點。

Xu 等人將包含具有正負號連接的網(wǎng)絡成為有符號網(wǎng)絡(signed network)。為了處理邊上的有符號信息,Shen 和 Chung 提出了一種半監(jiān)督的棧式自編碼器,它可以重構鄰接矩陣,為進一步的深度學習網(wǎng)絡嵌入的學習表征有符號網(wǎng)絡。

基于生成對抗網(wǎng)絡(GAN)的社區(qū)發(fā)現(xiàn)

GAN 包含兩種相互競爭的深度神經網(wǎng)絡,因此它可以迅速調整訓練精度。典型的 GAN 是以無監(jiān)督方式運行的,它們生成與訓練集中的數(shù)據(jù)具有相同統(tǒng)計特征的新數(shù)據(jù)。對于網(wǎng)絡數(shù)據(jù)來說,GAN 模型適用于無標簽的數(shù)據(jù)集和序列化的網(wǎng)絡劃分。

Yang 和 Leskovec 等人基于對抗性機制,提出了社區(qū)隸屬關系圖模型(AGM)。AGM 基于「節(jié)點-社區(qū)」成員隸屬關系(node membership)的思想對重疊的社區(qū)中的節(jié)點進行編碼。每個社區(qū)都有一個單一的概率,使得社區(qū)結構可以在 GAN 中進行。Jia 等人通過將這種模型與 GAN 相結合研發(fā)了一種新型的框架,它根據(jù)具有中間項(即隸屬圖中的「節(jié)點-社區(qū)」成員隸屬關系)進行社區(qū)發(fā)現(xiàn)。

4.2 基于深度圖嵌入的社區(qū)發(fā)現(xiàn)

深度圖嵌入是一種將網(wǎng)絡中的節(jié)點映射到一個低維向量空間中的技術。它將盡可能多的結構信息保存到表征中。通過圖嵌入,基于網(wǎng)絡分析的機器學習任務(例如鏈接預測、節(jié)點分類和節(jié)點聚類)可以利用表征的潛在特征,這樣節(jié)省了主要由網(wǎng)絡搜索引起的計算開銷。對于社區(qū)發(fā)現(xiàn)任務來說,基于節(jié)點表征的圖嵌入的輸出支持聚類的任務(例如通過 k-means 聚類)。

基于深度非負矩陣分解的社區(qū)發(fā)現(xiàn)

非負矩陣分解(NMF)是一類將矩陣分解為兩個矩陣的算法,它具有如下性質:三個矩陣都沒有負的特征值。NMF 自動地對輸入數(shù)據(jù)的列進行聚類,通過訓練階段的誤差函數(shù),使原始矩陣和兩個分解出的矩陣之間的近似誤差最小。

Ye 等人提出了一種用于社區(qū)發(fā)現(xiàn)的深度 NMF 模型,其中深度學習架構可以促進 NMF 學習原始網(wǎng)絡結構和社區(qū)結構之間的層次化映射。在某些情況下,社區(qū)發(fā)現(xiàn)的工作需要與對帶有屬性的內容的語義理解同時進行。為此,研究人員以一種帶屬性的圖的形式表征網(wǎng)絡,這種圖同時包含了網(wǎng)絡結構和節(jié)點的屬性。Li 等人特別針對帶屬性圖的社區(qū)發(fā)現(xiàn)任務提出了一種嵌入方法,它將帶有屬性的社區(qū)發(fā)現(xiàn)看做一個 NMF 優(yōu)化問題。為了使算法收斂,他們設計了一套可計算的迭代更新規(guī)則。

基于深度稀疏濾波的社區(qū)發(fā)現(xiàn)

鄰接矩陣反映出了網(wǎng)絡的稀疏性。嵌入對輸入的成對關系進行編碼,從而避免在稀疏矩陣上進行搜索。稀疏濾波(SF)是一種有效的深度特征學習算法,它只用到了一個超參數(shù),但可以處理高維輸入。SF 的關鍵模塊是針對 L2 正則化后的特征的稀疏性設計的簡單代價函數(shù)。對于網(wǎng)絡(尤其是在大型網(wǎng)絡中)的社區(qū)發(fā)現(xiàn),Xie 等人基于深度稀疏濾波提出了一種高效的網(wǎng)絡表征方法。他們通過一種無監(jiān)督的深度學習算法劃分網(wǎng)絡,從而提取網(wǎng)絡特征。

基于社區(qū)嵌入的社區(qū)發(fā)現(xiàn)

傳統(tǒng)意義上,圖嵌入重點關注單個的節(jié)點。Cavallari 等人研究了另一種重要的、但是鮮有人探索過的圖嵌入情況,他們重點關注對社區(qū)的嵌入。他們認為這種新的重要策略有益于社區(qū)發(fā)現(xiàn)任務。具體而言,社區(qū)嵌入的目標是在低維空間中學習一種社區(qū)的節(jié)點分布。我們可以通過過渡性(transitional)的圖嵌入方法使用這種新的節(jié)點分布,從而很好地保留網(wǎng)絡結構,這反過來可以提升社區(qū)發(fā)現(xiàn)的性能。此外,Tu 等人提出了一種新的圖嵌入模型,它同時探測每個節(jié)點的社區(qū)分布,并且學習節(jié)點和社區(qū)的嵌入。

網(wǎng)絡中的社區(qū)實際上反映了同一個社區(qū)中相似的觀點、行為等高階近似信息。Zhang 等人提出了一種保留社區(qū)信息的社交網(wǎng)絡嵌入方法來學習網(wǎng)絡表征。他們提出的這種方法在社區(qū)檢測任務中體現(xiàn)出了性能的優(yōu)越性。

4.3 基于圖神經網(wǎng)絡的社區(qū)發(fā)現(xiàn)

近年來,圖神經網(wǎng)絡(GNN)的迅猛發(fā)展表明了圖挖掘和深度學習技術融合的趨勢?;?GNN 的社區(qū)發(fā)現(xiàn)被用于利用圖神經網(wǎng)絡對網(wǎng)絡上的復雜關系進行建模,并捕獲這種關系。例如,Chen 等人提出的有監(jiān)督社區(qū)發(fā)現(xiàn) GNN 引入了一種非回溯的運算符,來定義邊的鄰接性。這種方法可以提升學習性能。對于 GNN 來說,運算符的選擇非常方便。

圖卷積網(wǎng)絡(GCN)是基于 CNN 研發(fā)的,它繼承了快速學習的能力。面對圖輸入數(shù)據(jù),GCN 展現(xiàn)出了非常好的性能。GCN 帶來的巨大提升在于整合了考慮網(wǎng)絡中實體概率分布的概率模型。例如,Jin 等人通過馬爾科夫隨機場解決了包含語義信息的帶屬性網(wǎng)絡中的半監(jiān)督社區(qū)發(fā)現(xiàn)問題。Shchur 和 Gunnemann 將「伯努利-泊松」概率模型整合到 GCN 中,用于重疊社區(qū)發(fā)現(xiàn)問題。通過這種方法,卷積層可以識別復雜的網(wǎng)絡模式。

五、挑戰(zhàn)和機遇

近年來(尤其是近 5 年來),用于社區(qū)發(fā)現(xiàn)的深度學習技術迅速發(fā)展。由于對現(xiàn)實世界具有重大的影響,這一領域持續(xù)受到研究人員的關注。盡管取得了令人欣喜的成果,在將深度學習應用于社區(qū)發(fā)現(xiàn)的領域中,仍然有一些挑戰(zhàn)有待被更好地解決。下面,本文將總結這些挑戰(zhàn)和機遇。

挑戰(zhàn) 1:社區(qū)數(shù)未知

長久以來,由于社區(qū)數(shù)未知而引發(fā)的挑戰(zhàn)始終沒有得到很好的解決。在機器學習領域中,社區(qū)發(fā)現(xiàn)經常被表示為一種無監(jiān)督聚類任務??偓F(xiàn)實世界的網(wǎng)絡中提取出的研究數(shù)據(jù)大多是沒有標簽的。因此,我們很難獲取有關社區(qū)數(shù)的先驗知識。此外,大多數(shù)現(xiàn)有的深度學習社區(qū)發(fā)現(xiàn)方法(尤其是深度圖嵌入),通過評估潛在特征空間中的節(jié)點相似度獲取分類節(jié)點。然而,在后續(xù)的聚類算法中,聚類的目標數(shù)量仍然需要被事先定義。

機遇:對于這一挑戰(zhàn),一個直接的解決方案是通過分析網(wǎng)絡拓撲確定社區(qū)的數(shù)量,并將其整合到深度學習模型中。Bhatia 和 Rani 等人遵循這一思想,采用基于隨機游走的定制化 PageRank 算法,通過將圖重構到一種線性的形式進行社區(qū)發(fā)現(xiàn),并通過模塊化的優(yōu)化方法來應用調優(yōu)。但是這些方法并不能保證網(wǎng)絡中的每個節(jié)點可以被分配到特定的社區(qū)中。因此,我們需要為社區(qū)發(fā)現(xiàn)任務涉及新的模型,從而避免在分配社區(qū)的過程中漏掉某些節(jié)點。

挑戰(zhàn) 2:網(wǎng)絡層次

網(wǎng)絡層次反映了分層的網(wǎng)絡結構,它將位于獨立的層上的多個群組連接了起來,從而形成一個更加復雜的網(wǎng)絡。而每一層都專注于特定的功能。對于多層網(wǎng)絡,用于社區(qū)發(fā)現(xiàn)的深度學習技術必須實現(xiàn)對于兩種層次上的表征的提取。而且他們將面臨多層網(wǎng)絡固有的挑戰(zhàn),這包括不同的關系類型以及不同層中不同的稀疏程度。

機遇:為了區(qū)分不同種類的連接,Song 和 Thiagarajan 提出了一種具有特殊子圖設計的多層 DeepWalk 模型,從而保存了層次化的結構。但是他們并沒有同時優(yōu)化可以用于所有層的公用表征以及保留了特定層網(wǎng)絡結構的局部表征。他們的目的是利用不同層之間的依賴,而實際上這種依賴關系經常被破壞。此外,對于新的設計來說,還應該考慮與層數(shù)增加有關的可伸縮性問題。因此,在研發(fā)用于具有網(wǎng)絡層次的社區(qū)發(fā)現(xiàn)的深度學習方法的問題上,我們還有很長的路要走。

挑戰(zhàn) 3:網(wǎng)絡異質性

網(wǎng)絡的異質性指的是網(wǎng)絡中實體類型的顯著差異,而各種各樣的節(jié)點集合和它們之間復雜的聯(lián)系形成了異質網(wǎng)絡。因此,我們應該通過不同于同質網(wǎng)絡的方式研究異質網(wǎng)絡中的社區(qū)發(fā)現(xiàn)。在應用和研發(fā)深度學習模型和算法時,應該解決異質網(wǎng)絡實體上的概率分布的差異。

機遇:大多數(shù)之前的深度學習方法并不是基于網(wǎng)絡異質性研發(fā)的。Change 等人設計了一種非線性嵌入函數(shù),它被用于捕獲異質組件之間的交互。因此,未來在異質網(wǎng)絡上至少存在兩個方面的研究機遇:(1)異質網(wǎng)絡表征的深度圖嵌入學習模型以及相關的支撐算法;(2)采用新型訓練過程的特定深度學習模型,旨在學習隱藏層中的異構圖屬性。

挑戰(zhàn) 4:邊上帶符號的信息

許多現(xiàn)實世界中的網(wǎng)絡具有邊上的符號信息(即正關系或負關系)。在有符號網(wǎng)絡的環(huán)境下,用于社區(qū)發(fā)現(xiàn)的深度學習方法面臨的挑戰(zhàn)是:通過不同的符號信息表示的節(jié)點之間的聯(lián)系應該以不同的方式對待。

機遇:一種可能的解決方案是,通過設計一種隨機游走過程引入正關系邊和負關系邊。Hu 等人遵循這一思路,基于詞嵌入技術研發(fā)了一種稀疏圖嵌入模型。但是,他們的方法在一些小型的真實世界中的有符號網(wǎng)絡中的性能要差于作為對比基線的譜方法。另一種的可能的解決方案是重建一個有符號網(wǎng)絡的鄰接矩陣表征。然而,這又面臨著另外一個問題:現(xiàn)實世界中的絕大部分鄰接連接是正關系。Shen 和 Chung 施加了更大的懲罰,使他們的棧式自編碼器模型更加關注重建稀缺的負邊而不是豐富的正邊。然而,在大多數(shù)情況下,我們并不能獲取關于大量節(jié)點的社區(qū)分配信息。因此,在有符號網(wǎng)絡中,社區(qū)發(fā)現(xiàn)的高效的無監(jiān)督方法仍然有待探索。

挑戰(zhàn) 5:社區(qū)嵌入

社區(qū)嵌入是一個新興的研究領域,這種方法將對社區(qū)而不是每個獨立的節(jié)點進行嵌入。社區(qū)嵌入重點關注對社區(qū)進行感知的高階近似而不是在節(jié)點鄰居之間的 1 階或 2 階近似。未來,社區(qū)嵌入研究面臨的挑戰(zhàn)有:(1)高昂的計算開銷;(2)節(jié)點和社區(qū)結構之間的關系評估;(3)應用深度學習模型時發(fā)生的其它問題,例如社區(qū)之間的分部漂移。

機遇:設想有一種智能的方法通過自動選擇針對節(jié)點和/或社區(qū)的表征模塊來支撐社區(qū)嵌入。為此,Philip等人建議從以下研究目標入手:(1)如何將社區(qū)嵌入整合到一個深度學習模型中?(2)如何為了「計算地更快」這樣的目標直接嵌入社區(qū)結構?(3)如何優(yōu)化整合好的深度社區(qū)發(fā)現(xiàn)學習模型中的超參數(shù)?

挑戰(zhàn) 6:網(wǎng)絡的動態(tài)性

網(wǎng)絡的動態(tài)性主要包含兩種情況:網(wǎng)絡拓撲的變化,以及在固定拓撲上的屬性的變化。拓撲的變化會引起社區(qū)的演化。例如,添加或刪除一個節(jié)點會影響全局的網(wǎng)絡連接,因此它也會改變社區(qū)結構。對于靜態(tài)網(wǎng)絡來說,深度網(wǎng)絡社區(qū)發(fā)現(xiàn)學習模型在面對每個網(wǎng)絡的快照時,需要重新訓練,這里面包含一些重復的工作。對于靜態(tài)網(wǎng)絡中的時序屬性,技術上的挑戰(zhàn)在于對于流數(shù)據(jù)的深度特征提取,這些流數(shù)據(jù)的概率分布和屬性隨時都會變化,它們引入圖數(shù)據(jù)作為深度學習模型輸入的另一部分。

機遇:針對時間和空間維度上的動態(tài)特性,人們還沒有研發(fā)用于社區(qū)發(fā)現(xiàn)的深度學習模型。未來的研究方向包括:(1)發(fā)現(xiàn)并識別社區(qū)間的空間變化;(2)學習深度模式,它同時對時序特征和社區(qū)結構信息進行嵌入;(3)為社區(qū)發(fā)現(xiàn)任務研發(fā)一種統(tǒng)一的深度學習方法,它可以同時處理空間和時間特征。

挑戰(zhàn) 7:大規(guī)模網(wǎng)絡

大規(guī)模網(wǎng)絡指的是擁有數(shù)以百萬計的節(jié)點和邊、大規(guī)模結構化模式以及高度動態(tài)性的大型網(wǎng)絡。因此,大規(guī)模網(wǎng)絡有其固有的規(guī)模特性(例如,社交網(wǎng)絡中與規(guī)模無關的特性,節(jié)點度的米率分布特性),這些特性會影響社區(qū)發(fā)現(xiàn)任務中的聚類系數(shù)。此外,通過分解后的有關高維鄰接關系的近似度度量,研究人員將分布式計算應用于可擴展的學習,同時他們也面臨著魯棒的學習控制和協(xié)作計算的問題。不斷變化的網(wǎng)絡拓撲進一步增加了近似度估計的難度??偠灾笠?guī)模網(wǎng)絡中的社區(qū)發(fā)現(xiàn)設計上述所有提到的挑戰(zhàn),以及可擴展學習方面的挑戰(zhàn)。

機遇:大規(guī)模網(wǎng)絡(例如,F(xiàn)acebook 和 Twitter)不僅提出了挑戰(zhàn),也催生了設計更先進的深度學習方法的機遇。為了充分利用大規(guī)模網(wǎng)絡中的豐富信息,社區(qū)上的聚類任務更需要具有較低的計算復雜度并具有靈活性的新型無監(jiān)督算法。深度學習中用到的關鍵數(shù)據(jù)降維方法(即矩陣低秩近似)并不適用于大規(guī)模網(wǎng)絡,它在分布式計算場景下的計算開銷也是很高昂的。因此,人們急需新型的深度學習框架、模型和算法。研發(fā)應用于大規(guī)模網(wǎng)絡的深度學習方法需要通過精度和速度來評估,這種評估方式可能是最大的挑戰(zhàn)。

六、結語

如今,我們生活在各種各樣的網(wǎng)絡中。發(fā)現(xiàn)這些網(wǎng)絡的內在功能和特征有助于我們全面地理解周圍的環(huán)境(尤其是在社交網(wǎng)絡中)。

社區(qū)還原了描述社會現(xiàn)象的復雜關系。傳統(tǒng)的社區(qū)發(fā)現(xiàn)方法曾經依賴的是統(tǒng)計推斷和機器學習(譜聚類)。然而,深度學習的發(fā)展極大地提升了社區(qū)發(fā)現(xiàn)方法的計算性能,用于社區(qū)發(fā)現(xiàn)的深度學習方法近五年來被廣泛地研究。

在這篇綜述文章中,Philip 等人全方位地回顧了模型和算法研發(fā)方面相應的技術趨勢,并針對基于深度學習領域社區(qū)發(fā)現(xiàn)進展做了詳細的闡述。

最為重要的是,這篇綜述還指出了將深度學習用于社區(qū)發(fā)現(xiàn)任務時存在的七個重大挑戰(zhàn),這在一定程度上將為下一代社區(qū)發(fā)現(xiàn)研究指明方向。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

Philip S. Yu 團隊最新綜述!社區(qū)發(fā)現(xiàn)的深度學習方法:進展、挑戰(zhàn)、機遇

分享:
相關文章

知情人士

當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說