丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

本文作者: MrBear 編輯:幸麗娟 2020-03-16 16:06
導(dǎo)語(yǔ):六大前景研究方向,走起!

 雷鋒網(wǎng) AI 科技品論按:2019 年年底,圖靈獎(jiǎng)獲得者 Bengio 指出,我們正處于從以感知智能為代表的深度學(xué)習(xí)系統(tǒng) 1,向以認(rèn)知智能為代表的深度學(xué)習(xí)系統(tǒng) 2 過(guò)渡的時(shí)期。

在這個(gè)過(guò)程中,知識(shí)圖譜技術(shù)起到了關(guān)鍵性的作用。近年來(lái),圖網(wǎng)絡(luò)的蓬勃發(fā)展也印證了這一趨勢(shì)。

本文是數(shù)據(jù)科學(xué)權(quán)威  Philip S. Yu 團(tuán)隊(duì)對(duì)知識(shí)圖譜領(lǐng)域的最新綜述,從發(fā)展歷史、理論基礎(chǔ)、實(shí)際應(yīng)用、未來(lái)的研究方向等方面為該領(lǐng)域勾畫(huà)出了一幅宏偉而全面的圖景。

引入人類(lèi)的知識(shí)是人工智能的重要研究方向之一。知識(shí)表征和推理受到了人類(lèi)解決問(wèn)題方法的啟發(fā),旨在為智能系統(tǒng)表征知識(shí),從而獲得解決復(fù)雜問(wèn)題的能力。最近,知識(shí)圖譜作為一種結(jié)構(gòu)化的人類(lèi)知識(shí),同時(shí)受到了學(xué)術(shù)界和工業(yè)界人士的極大關(guān)注。

知識(shí)圖譜是一種對(duì)于事實(shí)的結(jié)構(gòu)化表征,它由實(shí)體、關(guān)系和語(yǔ)義描述組成。實(shí)體可以是真實(shí)世界中存在的對(duì)象,也可以是抽象的概念;關(guān)系則表示實(shí)體之間的關(guān)聯(lián);實(shí)體及其關(guān)系的語(yǔ)義描述包含定義良好的類(lèi)型和屬性。如今,屬性圖已經(jīng)被廣泛使用,其中節(jié)點(diǎn)和關(guān)系都具有屬性。

術(shù)語(yǔ)「知識(shí)圖譜」和「知識(shí)庫(kù)」幾乎是同義詞,只有很微小的差別。當(dāng)我們考慮知識(shí)圖譜的圖結(jié)構(gòu)時(shí),可以將其視為一個(gè)圖。當(dāng)涉及形式語(yǔ)義問(wèn)題時(shí),它又可以作為對(duì)事實(shí)進(jìn)行解釋和推理的知識(shí)庫(kù)。知識(shí)庫(kù)和知識(shí)圖譜的具體形式如圖 1 所示。

知識(shí)可以通過(guò)資源描述框架(RDF)被表示為一種事實(shí)三元組的形式,如(頭實(shí)體,關(guān)系,尾實(shí)體)或(主語(yǔ),謂語(yǔ),賓語(yǔ)),例如(愛(ài)因斯坦,是...獲獎(jiǎng)?wù)撸Z貝爾獎(jiǎng))。知識(shí)也可以被表征為一種有向圖,其節(jié)點(diǎn)代表實(shí)體,邊代表關(guān)系。

為了簡(jiǎn)便起見(jiàn),并順應(yīng)研究社區(qū)的發(fā)展趨勢(shì),本文中互換使用知識(shí)圖譜和知識(shí)庫(kù)這兩個(gè)術(shù)語(yǔ)。

       知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

圖 1:知識(shí)庫(kù)和知識(shí)圖譜示意圖

近年來(lái),基于知識(shí)圖譜的研究主要關(guān)注的是,通過(guò)將實(shí)體和關(guān)系映射到低維向量中,獲取它們的語(yǔ)義信息,從而實(shí)現(xiàn)知識(shí)表征學(xué)習(xí)(KRL)或知識(shí)圖譜嵌入(KGE)。具體的知識(shí)獲取任務(wù)包括知識(shí)圖譜補(bǔ)全(KGC)、三元組分類(lèi)、實(shí)體識(shí)別,以及關(guān)系抽取。

基于知識(shí)的模型得益于異構(gòu)信息、豐富的知識(shí)表征本體和語(yǔ)義,以及多種語(yǔ)言知識(shí)的集成。因此,在常識(shí)理解能力和推理能力取得進(jìn)步的同時(shí),諸如推薦系統(tǒng)和問(wèn)答系統(tǒng)等許多真實(shí)世界中的應(yīng)用也走向了繁榮。微軟的 Satori 和谷歌的知識(shí)圖譜等現(xiàn)實(shí)世界中的產(chǎn)品,已經(jīng)展現(xiàn)出了提供更多高效服務(wù)的強(qiáng)大能力。

一、知識(shí)庫(kù)簡(jiǎn)史

在邏輯學(xué)和人工智能領(lǐng)域,知識(shí)表征經(jīng)歷了漫長(zhǎng)的發(fā)展歷史。用圖進(jìn)行知識(shí)表征的思想最早可以追溯到 Richens 在 1956 年提出的「語(yǔ)義網(wǎng)」(Semantic Net),而符號(hào)邏輯知識(shí)則可以追溯到 1959 年的通用問(wèn)題求解器。

起初,知識(shí)庫(kù)被用于基于知識(shí)的推理的問(wèn)題求解系統(tǒng)。MYCIN 是被用于醫(yī)學(xué)診斷的、最著名的基于規(guī)則的專(zhuān)家系統(tǒng)之一,它擁有一個(gè)包含約 600 條規(guī)則的知識(shí)庫(kù)。

在這之后,人類(lèi)知識(shí)表征研究社區(qū)在基于框架的語(yǔ)言、基于規(guī)則的表征以及混合表征方面都取得了一定的研究進(jìn)展。大約在這一時(shí)期的末期,旨在集成人類(lèi)知識(shí)的 Cyc 計(jì)劃,開(kāi)始了。

資源描述框架(RDF)和網(wǎng)絡(luò)本體語(yǔ)言(OWL)相繼發(fā)布,成為了語(yǔ)義網(wǎng)的重要標(biāo)準(zhǔn)。接著,人們也發(fā)布了諸如 WordNet、DBpedia、YAGO 和 Freebase 這樣的開(kāi)放的知識(shí)庫(kù)或本體。

Stokman 和 Vries 于 1988 年提出了現(xiàn)代意義上的以圖的形式組織知識(shí)的思想。然而,知識(shí)圖譜的概念開(kāi)始盛行還要等到 2012 年谷歌首次在其搜索引擎中引入知識(shí)圖譜,此時(shí)它們提出了被稱(chēng)為「Knowledge Vault」的知識(shí)融合框架,從而構(gòu)建大規(guī)模知識(shí)圖譜。知識(shí)庫(kù)的發(fā)展歷史簡(jiǎn)圖請(qǐng)參閱本文附錄 A。

二、相關(guān)定義和符號(hào)

研究人員做了大量工作,通過(guò)描述通用語(yǔ)義表征或本質(zhì)特征來(lái)為知識(shí)圖譜給出定義。然而,知識(shí)圖譜至今仍沒(méi)有被廣為接受的正式定義。Paulheim 定義了 4 種知識(shí)圖譜的標(biāo)準(zhǔn)。 Ehrlinger 和 Wo ?? 分析了一些現(xiàn)有的定義,并提出了如下所示的定義 1,它強(qiáng)調(diào)了知識(shí)圖譜的推理引擎。Wang 等人在定義 2 中提出了一個(gè)多關(guān)系圖的定義。

受到之前這些工作的啟發(fā),我們將一個(gè)知識(shí)圖譜定義為 G = {E,R,F},其中 E、R、F分別是實(shí)體、關(guān)系和事實(shí)的集合。事實(shí)可以被表示為一個(gè)三元組 (h,r,t) ∈ F。

定義 1(Ehrlinger 和 Wo ??):知識(shí)圖譜會(huì)獲取信息并將其集成到一個(gè)本體中,使用一個(gè)推理器產(chǎn)生新的知識(shí)。

定義 2(Wang 等人):知識(shí)圖譜是由實(shí)體和關(guān)系構(gòu)成的多關(guān)系圖,實(shí)體被視為節(jié)點(diǎn)而關(guān)系被視為各種不同類(lèi)型的邊。

表 1:知識(shí)圖譜相關(guān)符號(hào)和定義

知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

三、知識(shí)圖譜研究分類(lèi)

1、知識(shí)表征學(xué)習(xí)(KRL)

知識(shí)表征學(xué)習(xí)是知識(shí)圖譜領(lǐng)域的關(guān)鍵研究問(wèn)題,它為許多知識(shí)獲取任務(wù)和下游應(yīng)用打下了基礎(chǔ)。我們將 KRL 分為 4 個(gè)層面:表征空間、打分函數(shù)、編碼模型和輔助信息。本文還給出了明確的研發(fā) KRL 模型的工作流程。 詳細(xì)內(nèi)容如下:

1)表征空間   知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

圖 3:不同空間中的知識(shí)表征示意圖

學(xué)習(xí)實(shí)體和關(guān)系的低維分布嵌入是表征學(xué)習(xí)的關(guān)鍵問(wèn)題?,F(xiàn)有的工作主要使用的是向量、矩陣、張量空間等實(shí)值點(diǎn)空間(如圖 3a 所示),同時(shí)也會(huì)使用復(fù)雜向量空間(如圖 3b 所示)、高斯空間(如圖 3c 所示)以及流形(如圖 3d 所示)等其它類(lèi)型的空間。

2)打分函數(shù)

知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

圖 4:基于距離和基于相似度匹配的打分函數(shù)示意圖,分別以 TransE 和 DistMult 為例。

打分函數(shù)被用來(lái)衡量事實(shí)的合理性,它在基于能量的學(xué)習(xí)框架中也被稱(chēng)為能量函數(shù)?;谀芰康膶W(xué)習(xí)旨在學(xué)習(xí)輸入為 x、參數(shù)為 θ 的能量函數(shù)  E_θ(x),它將確保正樣本比負(fù)樣本有更高的得分。在本文中,統(tǒng)一將其稱(chēng)為「打分函數(shù)」。

典型的用于衡量事實(shí)合理性的打分函數(shù)分為兩類(lèi):即基于距離的打分函數(shù)(如圖 4a 所示)和基于相似度的打分函數(shù)(如圖 4b)。基于距離的打分函數(shù)通過(guò)計(jì)算實(shí)體之間的距離衡量事實(shí)的合理性,通過(guò)實(shí)體間關(guān)系實(shí)現(xiàn) h + r ≈ t 這種加法變換的思想被廣泛使用?;谡Z(yǔ)義相似度的打分函數(shù)通過(guò)語(yǔ)義匹配衡量事實(shí)的合理性,它通常采用        知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!      這樣的乘法公式在表征空間中將頭實(shí)體變換得與尾實(shí)體相近。

3)編碼模型

編碼模型通過(guò)特定的模型架構(gòu)(如線性/雙線性模型、因子分解模型、神經(jīng)網(wǎng)絡(luò))編碼實(shí)體和關(guān)系之間的相互作用。

線性模型通過(guò)將頭實(shí)體投影到接近尾實(shí)體的表征空間中,將關(guān)系表示為一個(gè)線性/雙線性映射。因子分解旨在將關(guān)系型數(shù)據(jù)分解到低秩矩陣中,從而進(jìn)行表征學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)則通過(guò)非線性神經(jīng)激活映射和更加復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)關(guān)系型數(shù)據(jù)進(jìn)行編碼。一些常見(jiàn)的神經(jīng)網(wǎng)絡(luò)模型如圖 5 所示。

       知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

圖 5:神經(jīng)編碼模型示意圖。(a)多層感知機(jī),和(b)卷積神經(jīng)網(wǎng)絡(luò)將三元組輸入到全連接層中,并且進(jìn)行卷積操作,從而學(xué)習(xí)到語(yǔ)義表征。(c)圖卷積網(wǎng)絡(luò)作為知識(shí)圖譜編碼器,生成實(shí)體和關(guān)系的嵌入。(d)RSN 有差別地對(duì)「實(shí)體-關(guān)系序列」和跳躍關(guān)系進(jìn)行編碼。

4)輔助信息

為了促進(jìn)更有效的知識(shí)表征,多模態(tài)嵌入將諸如文本描述、類(lèi)型約束、關(guān)系路徑以及視覺(jué)信息等外部信息與知識(shí)圖譜本身融合在了一起。

在知識(shí)圖譜研究社區(qū)中,知識(shí)表征學(xué)習(xí)是非常重要的。總的來(lái)說(shuō),想要研發(fā)一個(gè)新的知識(shí)表征學(xué)習(xí)模型需要回答以下 4 個(gè)問(wèn)題:(1)選擇怎樣的表征空間;(2)如何度量特定空間中的三元組合理性;(3)用怎樣的編碼模型編碼關(guān)系的相互作用;(4)是否要利用輔助信息。

最常用的表征空間是歐氏點(diǎn)空間,它將實(shí)體嵌入到向量空間中,并且通過(guò)向量、矩陣或張量對(duì)相互作用進(jìn)行建模。人們也研究了其它的表征空間(包括復(fù)雜向量空間、高斯分布、流形空間、群)。

相對(duì)于歐氏點(diǎn)空間,流形空間的優(yōu)勢(shì)在于它能夠松弛基于點(diǎn)的嵌入;高斯嵌入可以表達(dá)出實(shí)體和關(guān)系之間的不確定性,以及多重關(guān)系語(yǔ)義;復(fù)雜向量空間中的嵌入可以有效地建模不同的關(guān)系連接模型,特別是對(duì)稱(chēng)/反對(duì)稱(chēng)模式。

在編碼實(shí)體的語(yǔ)義信息和獲取關(guān)系屬性時(shí),表征空間起著非常重要的作用。當(dāng)我們研發(fā)一個(gè)表征學(xué)習(xí)模型時(shí),應(yīng)該選擇合適的表征空間,該表征空間被精心設(shè)計(jì)以匹配編碼方式的特性,并且能夠在表達(dá)能力和計(jì)算復(fù)雜度之間達(dá)到平衡。

采用基于距離的度量的打分函數(shù)會(huì)用到相應(yīng)的轉(zhuǎn)化原則,而基于語(yǔ)義匹配的打分函數(shù)則會(huì)采用成分級(jí)別的操作。編碼模型(尤其是神經(jīng)網(wǎng)絡(luò))在對(duì)于實(shí)體和關(guān)系的相互作用建模的過(guò)程中起到了關(guān)鍵作用。雙線性模型也受到了很多研究人員的關(guān)注,一些張量分解技術(shù)與此相關(guān)。其它方法則引入了文本描述、關(guān)系/實(shí)體類(lèi)型,以及實(shí)體圖像等輔助信息。

表 2:對(duì)近期知識(shí)表征學(xué)習(xí)工作的總結(jié)。詳情請(qǐng)參閱附錄 C

知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

2、知識(shí)獲取

知識(shí)獲取旨在根據(jù)非結(jié)構(gòu)化的文本構(gòu)建知識(shí)圖譜、補(bǔ)全一個(gè)現(xiàn)有的知識(shí)圖譜,發(fā)現(xiàn)并識(shí)別出實(shí)體和關(guān)系。構(gòu)建好的大型知識(shí)圖譜對(duì)于很多下游應(yīng)用是很有用的,可以賦予基于知識(shí)的模型常識(shí)推理的能力,因此為實(shí)現(xiàn)人工智能打下基礎(chǔ)。

知識(shí)獲取的主要任務(wù)包括關(guān)系抽取、知識(shí)圖譜補(bǔ)全、以及其它面向?qū)嶓w的獲取任務(wù),如實(shí)體識(shí)別和實(shí)體對(duì)齊。大多數(shù)方法單獨(dú)地形式化定義知識(shí)圖譜補(bǔ)全和關(guān)系抽取。然而,這兩種任務(wù)也可以被整合到一個(gè)統(tǒng)一的框架中。

Han 等人基于互注意力機(jī)制提出了一種聯(lián)合學(xué)習(xí)框架,這種互注意力機(jī)制被用于知識(shí)圖譜和文本之間的數(shù)據(jù)融合,該框架同時(shí)解決了根據(jù)文本進(jìn)行知識(shí)圖譜補(bǔ)全和關(guān)系抽取的問(wèn)題。此外,還有一些任務(wù)也與知識(shí)補(bǔ)全有關(guān)(例如,三元組分類(lèi)和關(guān)系分類(lèi))。在本節(jié)中,我們將完整地回顧知識(shí)補(bǔ)全、實(shí)體發(fā)現(xiàn)和關(guān)系抽取三步知識(shí)獲取技術(shù)。

1)知識(shí)圖譜補(bǔ)全(KGC)

由于大多知識(shí)圖譜具有不完整性,人們研發(fā)知識(shí)補(bǔ)全技術(shù)將新的三元組添加到一個(gè)新的知識(shí)圖譜中。典型的子任務(wù)包括鏈接預(yù)測(cè)、實(shí)體預(yù)測(cè)和關(guān)系預(yù)測(cè)。下面我們給出面向任務(wù)的定義 3.

定義 3: 給定一個(gè)不完整的知識(shí)圖譜 G=(E,R,F(xiàn)),知識(shí)圖譜補(bǔ)全旨在推理出缺失的三元組 T={(h,r,t)|(h,r,t)? F}

初期的知識(shí)圖譜補(bǔ)全研究重點(diǎn)關(guān)注為三元組預(yù)測(cè)學(xué)習(xí)低維嵌入。在本文中,我們將其稱(chēng)為「基于嵌入的方法」。

然而,大多數(shù)這些方法都不能獲取多級(jí)關(guān)系。因此,最近的工作轉(zhuǎn)而探索多級(jí)關(guān)系路徑并引入了邏輯關(guān)系,我們分別將其稱(chēng)為「關(guān)系路徑推理」和「基于規(guī)則的推理」。三元組分類(lèi)是知識(shí)圖譜補(bǔ)全的一個(gè)輔助任務(wù),它被用來(lái)評(píng)價(jià)事實(shí)三元組的正確性。

2)實(shí)體發(fā)現(xiàn)

實(shí)體發(fā)現(xiàn)可以從文本中獲取面向?qū)嶓w的知識(shí),并且在各個(gè)知識(shí)圖譜之間進(jìn)行知識(shí)融合。根據(jù)具體情況,可以將實(shí)體發(fā)現(xiàn)任務(wù)分為幾種不同的類(lèi)別。

我們以一種序列到序列(Seq2Seq)的方式探究實(shí)體識(shí)別任務(wù);而實(shí)體分類(lèi)任務(wù)則重點(diǎn)討論的是有噪聲的類(lèi)型標(biāo)簽和零樣本分類(lèi);實(shí)體消歧和對(duì)齊任務(wù)會(huì)學(xué)習(xí)統(tǒng)一的嵌入,它們提出迭代式的對(duì)齊模型解決對(duì)齊種子實(shí)體數(shù)量有限的問(wèn)題。但是如果新對(duì)齊的實(shí)體性能很差,它將會(huì)面臨誤差累積的問(wèn)題。

近年來(lái),針對(duì)特定語(yǔ)言的知識(shí)越來(lái)越多,因此必然激發(fā)了對(duì)于跨語(yǔ)言知識(shí)對(duì)齊的研究。  知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

圖 8:一些實(shí)體發(fā)現(xiàn)任務(wù)的示意圖

3)關(guān)系抽取

關(guān)系抽取是自動(dòng)構(gòu)建大型知識(shí)圖譜的關(guān)鍵任務(wù),該任務(wù)將從樸素文本中抽取出未知的關(guān)系事實(shí),并將他們添加到知識(shí)圖譜中。

由于缺乏帶有標(biāo)簽的關(guān)系型數(shù)據(jù),遠(yuǎn)程監(jiān)督(Distant Supervision)技術(shù)(又稱(chēng)弱監(jiān)督或自監(jiān)督)使用啟發(fā)式匹配,假設(shè)在關(guān)系型數(shù)據(jù)庫(kù)的監(jiān)督下,包含相同實(shí)體的句子可能表達(dá)相同的關(guān)系,從而創(chuàng)建訓(xùn)練數(shù)據(jù)。

Mintz 等人將遠(yuǎn)程監(jiān)督用于關(guān)系分類(lèi)任務(wù),他們用到的文本特征包括詞法和句法特征、命名實(shí)體標(biāo)簽,以及連接詞特征。傳統(tǒng)的方法高度依賴(lài)于特征工程,而最近的一種方法則探索了特征之間的內(nèi)在聯(lián)系。深度神經(jīng)網(wǎng)絡(luò)也正在改變知識(shí)圖譜和文本的表征學(xué)習(xí)。最近在神經(jīng)關(guān)系抽取(NRE)方法上的研究進(jìn)展如圖 9 所示。知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

圖 9:神經(jīng)關(guān)系抽取概覽

關(guān)系抽取任務(wù)在遠(yuǎn)程監(jiān)督的假設(shè)下會(huì)遇到帶有噪聲的模式,特別是在不同領(lǐng)域之間進(jìn)行遠(yuǎn)程監(jiān)督時(shí)。因此,對(duì)于弱監(jiān)督關(guān)系抽取來(lái)說(shuō),減小帶噪聲標(biāo)簽的影響是非常重要的(例如,通過(guò)多示例學(xué)習(xí)將多個(gè)句子組成的包作為輸入,使用注意力機(jī)制在示例上進(jìn)行「軟」選擇從而減少帶噪聲的模式,基于強(qiáng)化學(xué)習(xí)的方法將示例選擇表示為硬性決策。另一個(gè)原則是,盡可能學(xué)習(xí)到更加豐富的表征。由于深度神經(jīng)網(wǎng)絡(luò)可以解決傳統(tǒng)特征抽取方法中的誤差傳播問(wèn)題,該領(lǐng)域一直被基于深度神經(jīng)網(wǎng)絡(luò)的模型所主導(dǎo)。

表 4:神經(jīng)關(guān)系抽取近期研究進(jìn)展一覽知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

3、 時(shí)序知識(shí)圖譜

現(xiàn)有的知識(shí)圖譜研究大多數(shù)都關(guān)注的是靜態(tài)知識(shí)圖譜,其中事實(shí)不會(huì)隨著時(shí)間而變化,然而目前對(duì)知識(shí)圖譜的時(shí)序動(dòng)態(tài)變化的研究則較少。然而,由于結(jié)構(gòu)化的知識(shí)僅僅在特定的時(shí)間段內(nèi)成立,所以時(shí)序信息是非常重要的,而事實(shí)的演化也會(huì)遵循一個(gè)時(shí)間序列。

近期的研究開(kāi)始將時(shí)序信息引入知識(shí)表征學(xué)習(xí)和知識(shí)圖譜補(bǔ)全任務(wù)。為了與之前的靜態(tài)知識(shí)圖譜產(chǎn)生對(duì)比,我們將其稱(chēng)為「時(shí)序知識(shí)圖譜」。為了同時(shí)學(xué)習(xí)時(shí)序嵌入和關(guān)系嵌入,人們進(jìn)行了大量的研究工作。

1)時(shí)序信息嵌入

在與時(shí)序有關(guān)的嵌入中,我們通過(guò)將三元組拓展成時(shí)序四元組  (h,r,t,τ) 來(lái)考慮時(shí)序信息。其中 τ 提供了關(guān)于事實(shí)何時(shí)成立的額外的時(shí)序信息。Leblay 和 Chekol 利用帶有時(shí)間標(biāo)注的三元組研究了時(shí)序范圍預(yù)測(cè)問(wèn)題,并簡(jiǎn)單地拓展了現(xiàn)有的嵌入方法。例如,將 TransE 拓展為基于向量的 TTransE 定義如下:

       知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

2)實(shí)體動(dòng)態(tài)

現(xiàn)實(shí)世界中的事件會(huì)改變實(shí)體的狀態(tài),并因此影響相應(yīng)的關(guān)系。為了提升時(shí)間范圍預(yù)測(cè)的性能,上下文時(shí)序剖面模型將時(shí)序范圍預(yù)測(cè)形式化定義為了狀態(tài)變化檢測(cè)問(wèn)題,利用上下文學(xué)習(xí)狀態(tài)和狀態(tài)變化向量。

「Know-evolve」是一種深度演化知識(shí)網(wǎng)絡(luò),它研究了實(shí)體和它們演化后的關(guān)系的知識(shí)演化現(xiàn)象。人們使用了一種多變量時(shí)序點(diǎn)過(guò)程對(duì)事實(shí)的發(fā)生進(jìn)行建模,研發(fā)出了一種新型的循環(huán)網(wǎng)絡(luò)學(xué)習(xí)非線性時(shí)序演化的表征。

為了獲取節(jié)點(diǎn)之間的相互作用,RE-NET 通過(guò)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編碼器和鄰居聚合器對(duì)事件序列進(jìn)行建模。具體而言,他們使用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)獲取時(shí)序?qū)嶓w相互作用的信息,并且通過(guò)鄰居聚合器將同時(shí)發(fā)生的相互作用進(jìn)行聚合。

3)時(shí)序關(guān)系依賴(lài)

在關(guān)系鏈中,沿著時(shí)間線存在時(shí)序依賴(lài)關(guān)系。例如,「在...出生 →從...畢業(yè) → 在...工作 → 在...去世」。Jiang 等人提出了基于時(shí)間的嵌入,這是一種帶有時(shí)序正則化的聯(lián)合學(xué)習(xí)框架,從而引入時(shí)間順序和一致性信息。作者將時(shí)序打分函數(shù)定義如下:

知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

其中,        知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!      是一個(gè)非對(duì)稱(chēng)矩陣,它為時(shí)序順序關(guān)系對(duì)?r_k,r_l?編碼了關(guān)系的時(shí)序順序。此后,人們又進(jìn)一步通過(guò)整數(shù)線性規(guī)劃公式,應(yīng)用了不相交性(disjointness)、有序性(ordering)和跨度(spans)三種時(shí)間一致性約束。

4)時(shí)序邏輯推理

研究人員還研究了時(shí)序推理的邏輯規(guī)則。Chekol 等人探究了在非確定性時(shí)序知識(shí)圖譜上進(jìn)行推理的馬爾科夫邏輯網(wǎng)絡(luò)和概率軟邏輯。RLvLR-Stream 則考慮閉合時(shí)間路徑規(guī)則,并從知識(shí)圖譜流中學(xué)習(xí)規(guī)則的結(jié)構(gòu)進(jìn)行推理。

4、基于知識(shí)的應(yīng)用

對(duì)于人工智能應(yīng)用來(lái)說(shuō),豐富的結(jié)構(gòu)化知識(shí)是很有用的。但是如何將這些符號(hào)化的知識(shí)融合到現(xiàn)實(shí)世界應(yīng)用的計(jì)算框架中仍然是一大挑戰(zhàn)。本節(jié)將介紹一些近期的基于深度神經(jīng)網(wǎng)絡(luò)的知識(shí)驅(qū)動(dòng)方法在自然語(yǔ)言理解(NLU)任務(wù)上的應(yīng)用。

1)自然語(yǔ)言理解

基于知識(shí)的自然語(yǔ)言理解通過(guò)被注入統(tǒng)一語(yǔ)義空間的結(jié)構(gòu)化知識(shí)提升了語(yǔ)言表征的性能。最近,該領(lǐng)域由知識(shí)驅(qū)動(dòng)的研究進(jìn)展利用了顯式的事實(shí)知識(shí)和隱式的語(yǔ)言表征,并探索了許多自然語(yǔ)言理解任務(wù)。

Chen 等人提出了在兩個(gè)知識(shí)圖譜(即一個(gè)基于槽(slot-based)的語(yǔ)義知識(shí)圖譜和基于單詞的詞法知識(shí)圖譜)上的雙圖隨機(jī)游走技術(shù),從而考慮口語(yǔ)理解中的槽間關(guān)系。Wang 等人通過(guò)加權(quán)的「單詞-概念」嵌入實(shí)現(xiàn)的基于知識(shí)的概念模型增強(qiáng)了短文本表征學(xué)習(xí)。Peng 等人融合了外部知識(shí)庫(kù),從而為短社交文本的事件分類(lèi)任務(wù)構(gòu)建了異構(gòu)信息圖譜。

2)問(wèn)答系統(tǒng)

基于知識(shí)的問(wèn)答(KG-QA)系統(tǒng)使用來(lái)源于知識(shí)圖譜的事實(shí)回答自然語(yǔ)言問(wèn)題。基于神經(jīng)網(wǎng)絡(luò)的方法在分布式語(yǔ)義空間中表征問(wèn)題和答案,也有一些方法進(jìn)行了符號(hào)知識(shí)注入,從而實(shí)現(xiàn)常識(shí)推理。 

通過(guò)將知識(shí)圖譜作為外部智能來(lái)源,簡(jiǎn)單的事實(shí)型問(wèn)答系統(tǒng)或單一事實(shí)問(wèn)答系統(tǒng)就可以回答設(shè)計(jì)單個(gè)知識(shí)圖譜事實(shí)的簡(jiǎn)單問(wèn)題。Bordes 等人通過(guò)將知識(shí)庫(kù)作為外部記憶,將記憶網(wǎng)絡(luò)用于簡(jiǎn)單的問(wèn)答.

這些基于神經(jīng)網(wǎng)絡(luò)的方法將神經(jīng)「編碼器-解碼器」模型結(jié)合起來(lái),獲得了性能的提升。但是想要處理復(fù)雜的多級(jí)關(guān)系還需要能夠處理多級(jí)常識(shí)推理的、更加專(zhuān)用的網(wǎng)絡(luò)設(shè)計(jì)。結(jié)構(gòu)化的知識(shí)提供了富含信息的常識(shí)觀察,并作為一種關(guān)系型歸納偏置存在,它促進(jìn)了最近關(guān)于多級(jí)推理的符號(hào)和語(yǔ)義空間之間的常識(shí)知識(shí)融合的研究。

3)推薦系統(tǒng)

研究人員通過(guò)協(xié)同過(guò)濾對(duì)推薦系統(tǒng)進(jìn)行了廣泛的研究,該方法使用了用戶(hù)的歷史信息。然而,這種方法往往不能解決稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題。將知識(shí)圖譜作為外部信息引入可以為推薦系統(tǒng)賦予常識(shí)推理的能力。

通過(guò)注入基于知識(shí)圖譜的輔助信息(例如,實(shí)體、關(guān)系和屬性),研究人員在用于提升推薦性能的嵌入正則化方面做了大量工作。還有一些工作考慮到了關(guān)系路徑和知識(shí)圖譜的結(jié)構(gòu),KPRN 將用戶(hù)和商品之間的交互看做知識(shí)圖譜中的「實(shí)體-關(guān)系」路徑,并且使用 LSTM 獲取序列的依賴(lài)性,從而在路徑上進(jìn)行用戶(hù)喜好預(yù)測(cè)。

四、未來(lái)的研究方向

研究人員做了大量工作解決知識(shí)表征及其相關(guān)應(yīng)用面臨的挑戰(zhàn),但是仍然有一些艱難的開(kāi)放問(wèn)題有待解決,未來(lái)也有一些前景光明的的研究方向。

1、復(fù)雜的推理

用于知識(shí)表征和推理的數(shù)值化計(jì)算需要連續(xù)的向量空間,從而獲取實(shí)體和關(guān)系的語(yǔ)義信息。然而,基于嵌入的方法在復(fù)雜邏輯推理任務(wù)中有一定的局限性,但關(guān)系路徑和符號(hào)邏輯這兩個(gè)研究方向值得進(jìn)一步探索。在知識(shí)圖譜上的循環(huán)關(guān)系路徑編碼、基于圖神經(jīng)網(wǎng)絡(luò)的信息傳遞等具有研究前景的方法,以及基于強(qiáng)化學(xué)習(xí)的路徑發(fā)現(xiàn)和推理對(duì)于解決復(fù)雜推理問(wèn)題是很有研究前景的。

在結(jié)合邏輯規(guī)則和嵌入的方面,近期的工作將馬爾科夫邏輯網(wǎng)絡(luò)和 KGE 結(jié)合了起來(lái),旨在利用邏輯規(guī)則并處理其不確定性。利用高效的嵌入實(shí)現(xiàn)能夠獲取不確定性和領(lǐng)域知識(shí)的概率推理,是未來(lái)一個(gè)值得注意的研究方向。

2、統(tǒng)一的框架

已有多個(gè)知識(shí)圖譜表征學(xué)習(xí)模型被證明是等價(jià)的。例如,Hayshi 和  Shimbo 證明了 HoIE 和 ComplEx 對(duì)于帶有特定約束的鏈接預(yù)測(cè)任務(wù)在數(shù)學(xué)上是等價(jià)的。ANALOGY 為幾種具有代表性的模型(包括 DistMult、ComplEx,以及 HoIE)給出了一個(gè)統(tǒng)一的視角。Wang 等人探索了一些雙線性模型之間的聯(lián)系。Chandrahas 等人探究了對(duì)于加法和乘法知識(shí)表征學(xué)習(xí)模型的幾何理解。

大多數(shù)工作分別使用不同的模型形式化定義了知識(shí)獲取的知識(shí)圖譜補(bǔ)全任務(wù)和關(guān)系抽取任務(wù)。Han 等人將知識(shí)圖譜和文本放在一起考慮,并且提出了一種聯(lián)合學(xué)習(xí)框架,該框架使用了在知識(shí)圖譜和文本之間共享信息的互注意力機(jī)制。不過(guò)這些工作對(duì)于知識(shí)表征和推理的統(tǒng)一理解的研究則較少。

然而,像圖網(wǎng)絡(luò)的統(tǒng)一框架那樣對(duì)該問(wèn)題進(jìn)行統(tǒng)一的研究,是十分有意義的,將填補(bǔ)該領(lǐng)域研究的空白。

3、可解釋性

知識(shí)表征和注入的可解釋性對(duì)于知識(shí)獲取和真實(shí)世界中的應(yīng)用來(lái)說(shuō)是一個(gè)關(guān)鍵問(wèn)題。在可解釋性方面,研究人員已經(jīng)做了一些初步的工作。ITransF 將稀疏向量用于知識(shí)遷移,并通過(guò)注意力的可視化技術(shù)實(shí)現(xiàn)可解釋性。CrossE 通過(guò)使用基于嵌入的路徑搜索來(lái)生成對(duì)于鏈接預(yù)測(cè)的解釋?zhuān)瑥亩剿髁藢?duì)知識(shí)圖譜的解釋方法。

然而,盡管最近的一些神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了令人印象深刻的性能,但是它們?cè)谕该鞫群涂山忉屝苑矫嫒源嬖诰窒扌?。一些方法嘗試將黑盒的神經(jīng)網(wǎng)絡(luò)模型和符號(hào)推理結(jié)合了起來(lái),通過(guò)引入邏輯規(guī)則增加可解釋性。

畢竟只有實(shí)現(xiàn)可解釋性才可以說(shuō)服人們相信預(yù)測(cè)結(jié)果,因此研究人員需要在可解釋性和提升預(yù)測(cè)知識(shí)的可信度的方面做出更多的工作。

4、可擴(kuò)展性

可擴(kuò)展性是大型知識(shí)圖譜的關(guān)鍵問(wèn)題。我們需要在計(jì)算效率和模型的表達(dá)能力之間作出權(quán)衡,而只有很少的工作被應(yīng)用到了多于 100 萬(wàn)個(gè)實(shí)體的場(chǎng)景下。一些嵌入方法使用了簡(jiǎn)化技術(shù)降低了計(jì)算開(kāi)銷(xiāo)(例如,通過(guò)循環(huán)相關(guān)運(yùn)算簡(jiǎn)化張量的乘積)。然而,這些方法仍然難以擴(kuò)展到數(shù)以百萬(wàn)計(jì)的實(shí)體和關(guān)系上。

類(lèi)似于使用馬爾科夫邏輯網(wǎng)絡(luò)這樣的概率邏輯推理是計(jì)算密集型的任務(wù),這使得該任務(wù)難以被擴(kuò)展到大規(guī)模知識(shí)圖譜上。最近提出的神經(jīng)網(wǎng)絡(luò)模型中的規(guī)則是由簡(jiǎn)單的暴力搜索(BF)生成的,這使得它在大規(guī)模知識(shí)圖譜上不可行。例如 ExpressGNN 試圖使用 NeuralLP 進(jìn)行高效的規(guī)則演繹,但是要處理復(fù)雜的深度架構(gòu)和不斷增長(zhǎng)的知識(shí)圖譜還有很多研究工作有待探索。

5、知識(shí)聚合

全局知識(shí)的聚合是基于知識(shí)的應(yīng)用的核心。例如,推薦系統(tǒng)使用知識(shí)圖譜來(lái)建模「用戶(hù)-商品」的交互,而文本分類(lèi)則一同將文本和知識(shí)圖譜編碼到語(yǔ)義空間中。不過(guò),大多數(shù)現(xiàn)有的知識(shí)聚合方法都是基于注意力機(jī)制和圖神經(jīng)網(wǎng)絡(luò)(GNN)設(shè)計(jì)的。

得益于 Transformers 及其變體(例如 BERT 模型),自然語(yǔ)言處理研究社區(qū)由于大規(guī)模預(yù)訓(xùn)練取得了很大的進(jìn)步。而最近的研究發(fā)現(xiàn),使用非結(jié)構(gòu)化文本構(gòu)建的預(yù)訓(xùn)練語(yǔ)言模型確實(shí)可以獲取到事實(shí)知識(shí)。大規(guī)模預(yù)訓(xùn)練是一種直接的知識(shí)注入方式。然而,以一種高效且可解釋的方式重新思考只是聚合的方式也是很有意義的。

6、自動(dòng)構(gòu)建和動(dòng)態(tài)變化

現(xiàn)有的知識(shí)圖譜高度依賴(lài)于手動(dòng)的構(gòu)建方式,這是一種開(kāi)銷(xiāo)高昂的勞動(dòng)密集型任務(wù)。知識(shí)圖譜在不同的認(rèn)知智能領(lǐng)域的廣泛應(yīng)用,對(duì)從大規(guī)模非結(jié)構(gòu)化的內(nèi)容中自動(dòng)構(gòu)建知識(shí)圖譜提出了要求。

近期的研究主要關(guān)注的是,在現(xiàn)有的知識(shí)圖譜的監(jiān)督信號(hào)下,半自動(dòng)地構(gòu)建知識(shí)圖譜。面對(duì)多模態(tài)、異構(gòu)的大規(guī)模應(yīng)用,自動(dòng)化的知識(shí)圖譜構(gòu)建仍然面臨著很大的挑戰(zhàn)。

目前,主流的研究重點(diǎn)關(guān)注靜態(tài)的知識(shí)圖譜。鮮有工作探究時(shí)序范圍的有效性,并學(xué)習(xí)時(shí)序信息以及實(shí)體的動(dòng)態(tài)變化。然而,許多事實(shí)僅僅在特定的時(shí)間段內(nèi)成立。

考慮到時(shí)序特性的動(dòng)態(tài)知識(shí)圖譜,將可以解決傳統(tǒng)知識(shí)表征和推理的局限性。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

知識(shí)圖譜前沿跟進(jìn),看這篇就夠了,Philip S. Yu 團(tuán)隊(duì)發(fā)布權(quán)威綜述,六大開(kāi)放問(wèn)題函待解決!

分享:
相關(guān)文章

知情人士

當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)