丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
國際 正文
發(fā)私信給章敏
發(fā)送

1

ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

本文作者: 章敏 2016-07-27 10:57
導語:在自然語言處理(NLP)中,理清上下文關(guān)系是一項的關(guān)鍵任務 ,本文將所用方法延伸為整合基于路徑的和分布式的信號,將此任務上的性能提高到了當前最佳的水平。

通過整合基于路徑的方法和分布式的方法改善詞對檢測

聯(lián)合編譯:章敏,高斐,陳圳

摘要

在自然語言處理(NLP)中,理清詞對關(guān)系是一項的關(guān)鍵任務 ,在一份使用兩種互補方法的文獻中也強調(diào)這一點。分布式方法:其監(jiān)督式的變體是目前最好的任務執(zhí)行器;基于路徑的方法:它只受到少許的研究關(guān)注。我們發(fā)現(xiàn),改善后的基于路徑的算法——其依賴的路徑(dependency path)通過遞歸神經(jīng)網(wǎng)絡進行編碼——與分布式方法相比應該能達到理想結(jié)果。然后,我們將所用方法延伸為整合基于路徑的和分布式的信號,這顯著地將此任務上的性能提高到了當前最佳的水平。

1.簡介

在自然語言處理任務中,詞對關(guān)系是非常重要的詞匯語義關(guān)系 。例如,知道Tom Cruise是一個演員,有助于問題回答系統(tǒng)回答問題如:“哪個演員參演了Scientology”。而語義分類 ,如詞匯網(wǎng)絡(WordNet),在詞匯類型之間定義了詞對關(guān)系,但他們在范圍和領域中是有限的。因此,已經(jīng)開發(fā)了自動化的方法來確定,對于一個給定的詞對(x,y),y是否是x的詞對,取決于它們在大型語料庫的產(chǎn)生過程。

幾十年來,這個任務已經(jīng)有兩種類型的解法:分布式和基于路徑。在分布式方法中,y是否是x的詞對取決于這些術(shù)語的分布表示。之后,隨著流行詞匯的嵌入,大部分注意力被轉(zhuǎn)移到了監(jiān)督分配方法,其中每一個詞對(x,y),都用了一些詞的嵌入向量組合進行表示。

相比于分布式方法(決定基于x和y單獨的上下文),基于路徑的方法,是基于語法詞匯路徑聯(lián)合語料庫中x和y的共同發(fā)生進行抉擇的。Hearst定義了一個很小的頻繁路徑集來表示詞對關(guān)系,例如,Y如X,Snow等人,將每一個詞對(x,y)表示成依賴路徑的多重集合,連接他們在語料庫中的共同出現(xiàn),并基于這些特征,訓練了一個分類器來預測詞對關(guān)系。

使用單獨的路徑作為特征會導致一個巨大的,稀疏的特征空間。盡管一些路徑是稀有的,它們也是由某些不重要的組件組成。例如,““Spelt is a species of wheat” 和 “Fantasy is a genre of fiction” 產(chǎn)生兩個不同的路徑:X be species of Y 和X be genre of Y,但兩個都暗示了X is-a Y。唯一的解決方法是和PATTY系統(tǒng)所做的一樣,通過使用他們講話的一部分標簽或百搭牌代替路徑上面的詞匯來歸納路徑。

總體而言,最好的路徑為基礎的方法的性能比分配方法更糟糕?;诼窂降姆椒ǖ囊粋€主要限制是:他們要求,詞對一起在語料庫中發(fā)生,限制了召回這些方法。然而分布式的方法沒有這樣的要求,他們通常不會精確檢測一個特定的語義關(guān)系如詞對關(guān)系,并且在檢測詞之間的廣義語義相似性方面性能非常高。雖然這些方法似乎是互補的,但整合他們的工作卻不少。

在本文中,我們提出了HypeNET,一種結(jié)合基于路徑和分布式的方法,用于上下文語境檢測。受到最近關(guān)系分層方面研究的啟發(fā),我們使用了一個長短期的記憶(LSTM)網(wǎng)絡,進行依賴路徑的編碼。為了給我們的網(wǎng)絡創(chuàng)造足夠的訓練數(shù)據(jù),,我們遵循了以前的方法,即構(gòu)建一個基于知識資源的數(shù)據(jù)集。

首先,我們展示了基于路徑的方法,在它自己本身方面,相比于以前基于路徑的方法性能得到了很大的提高,并達到了分布式方法一樣的性能。我們的分析表明,神經(jīng)路徑表示,可以確保更好的概括。雖然粗劣的概括,如通過它的POS標簽取代一個詞,是捕獲路徑之間主要的句法的相似性,HypeNET也是同樣捕獲語義的相似性。

然后,我們表明,我們可以很容易地在網(wǎng)絡中集成分布式信號。整合結(jié)果表明,分布式和基于路徑的信號實際上提供了補充信息,相比于每一個單獨的模型,結(jié)合模型的性能提高到了14F1點。

2.背景

我們介紹了兩個用于詞對關(guān)系檢測的主要方法:分布式方法,和基于路徑的方法。隨后我們討論了遞歸神經(jīng)網(wǎng)絡在關(guān)系分級相關(guān)的任務方面的應用。

2.1分布式方法

詞對關(guān)系檢測是常用的分布式方法。在該方法中,基于兩個術(shù)語的分布表示檢測y是否是x的詞對,例如,在語料庫中每一個術(shù)語單獨出現(xiàn)的語境。

以前的方法開發(fā)出了詞對的無監(jiān)督方法,從對稱相似測量開始,并遵循基于分布包含假設的定向方法。這一假說認為,一個下位詞的語境預計將在很大程度上包含那些上位詞。最近的工作介紹了新的措施,它是基于這樣的一個的假設:上位詞最典型的語言語境比下位詞的信息量更少。

最近,分布式方法的焦點轉(zhuǎn)變成了監(jiān)督方法。在這些方法中,(X,Y)術(shù)語由一個特征向量表示,并且在分類器上訓練了這些向量以預測詞對關(guān)系。有幾種方法將術(shù)語對表示為每個術(shù)語嵌入載體的組合:級聯(lián)x向量⊕y向量,差異y向量-x向量,點積x向量·y向量。使用神經(jīng)詞匯嵌入,這些方法很容易容易投入應用,并產(chǎn)生好的結(jié)果。

2.2基于路徑的方法

有一個檢測術(shù)語對(x,y)之間詞對關(guān)系的方法,考慮到了詞匯-語法路徑(連接大的語料庫中x和y共同發(fā)生的接口)。從自由文本中自動探測和跟蹤上位詞,就是基于這樣的一個路徑,它是由Hearst首先提出的(確定一小套詞匯句法路徑表明上下文關(guān)系,例如Y such as X, X and other Y)。

在后期工作中,Snow等人學習檢測上下文關(guān)系。并非搜索尋找具體路徑表明上下文詞對關(guān)系,他們將每一個(x,y)語術(shù)對表示成所有依賴路徑的多重集合——連接語料庫中x和y,并基于其他路徑訓練一個邏輯回歸分類器,預測y是否是x上位詞。

路徑表明上位關(guān)系是那些被分類器分配高權(quán)重的東西。通過這種方法確定的路徑將被Hearst證明包括這些發(fā)現(xiàn),溫和的提升性能。Snow等人方法的變化后期會被用于很多任務如:分類建設,類比識別,和定義提取。

依靠詞匯句法路徑的一個主要的限制是特征空間的稀疏性。由于類似的路徑可能會有所不同,在詞匯層面,概括這種變化到更多抽象路徑可以增加召回。PATTY算法用于概括從自由文本中獲取長期關(guān)系的分類。對于每個路徑,他們添加了廣義版本,其中的一個沿路徑的單詞的子集將被替換,可以是是他們的POS標簽,或其本體論的類型或百搭牌。這種泛化會增加召回,同時保持相同水平的精度。

2.3用于關(guān)系分類的RNNs

關(guān)系分類是相關(guān)的任務,它的目標是:將一個給定的語句中兩個相近的目標項,表示到一個預定義的關(guān)系類中。為了說明,考慮下面的句子,來自SemEval-2010關(guān)系分類數(shù)據(jù)集:“[蘋果]e1在[籃] e2中”。其中,目標實體之間的關(guān)系表達:內(nèi)容?容器(e1,e2)。

目標實體之間的最短的依賴關(guān)系的路徑,被證明是用于這個任務的信息。最近,深度學習技術(shù)在捕獲這樣路徑中的指示信息方面,表現(xiàn)出了良好的性能。

特別是,有幾篇論文表明使用遞歸網(wǎng)神經(jīng)網(wǎng)絡(沿邊緣到邊緣處理依賴路徑)提高了性能。Xu等人對于每個序列詞,POS標簽,依賴標簽和沿著路徑的詞匯網(wǎng)絡,應用了分離長短期記憶(LSTM)網(wǎng)絡。LSTM中max-pooling層的輸出被用作網(wǎng)絡的輸入,預測分類。其他論文建議混合額外的網(wǎng)絡架構(gòu),以進一步提高性能。

盡管關(guān)系分類和詞對關(guān)系檢測都涉及識別語義關(guān)系(持有條款對),但他們在主要方面有所不同。在關(guān)系分類中關(guān)系應在給定的文本中表達,而在上位關(guān)系檢測,目標是在術(shù)語(在許多語境中持有的術(shù)語)之間識別一個通用的詞匯語義關(guān)系。因此,關(guān)系分類術(shù)語對由單獨依賴路徑表示,而在上下文關(guān)系檢測中,它是由所有依賴路徑的多集合(在語料庫中共同出現(xiàn))表示。

3.基于LSTM的上下文關(guān)系檢測

我們提出了HypeNET,用于上下文關(guān)系檢測的基于LSTM的方法。我們首先專注于改善路徑表示(第3.1節(jié)),然后將分布式信號集成到我們的網(wǎng)絡中,最后產(chǎn)生組合方法(第3.2節(jié))。

3.1基于路徑的網(wǎng)絡

和前期的工作類似,我們將每一個依賴路徑表示成邊緣的序列(在依賴數(shù)中引導x至y)。每一個邊緣包括論點和源點的部分演講標簽,依賴標簽,和兩個后面點之間的邊緣方向。我們定義每一個邊緣為lemma/POS/dep/dir。說明見圖1。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

圖1:句子“parrto is a bird”的依賴樹實例,其中 x=parrot,y=bird,符號可表示為  X/NOUN/nsubj/< be/VERB/ROOT/-Y/NOUN/attr/>。

并非將整個依賴路徑看成單獨的特征,我們還使用了長短期記憶(LSTM)網(wǎng)絡編碼邊緣序列。從不同的給定(x,y)對路徑獲得的向量是共用的,并且結(jié)果向量用于分類。圖2描述了整體網(wǎng)絡結(jié)構(gòu)(下文中將進行描述)。

邊緣表示.我們通過串聯(lián)組成的向量表示每一個邊緣:

       ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

其中向量vl代表論點的嵌入向量,向量vpos代表詞性,向量vdep代表依賴標簽,vdir代表依賴方向(沿著x到y(tǒng)的路徑)。

路徑表示.對于由邊緣e1.........ek,組成的路徑p,邊緣向量ve1........vek被依次放入LSTM編碼器,產(chǎn)生向量Op表示整個路徑p。LSTM結(jié)構(gòu)在序列中捕獲時間模式非常有效。我們希望訓練程序可以促使LSTM編碼器集中于路徑部分——更多的信息用于分類任務,而忽略其他的信息。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

圖2:詞對分類法的插圖。每一個詞對由幾個路徑表示。每個路徑由一系列邊組成,每條邊又由四部分組成:詞條,POS,依賴標簽與依賴方向。每一個邊向量依照序列被存儲到LSTM中,最終生成一個路徑嵌入式矢量Op。平均路徑矢量成為屬于對的特征矢量,用于對術(shù)語對進行分類。虛線矢量vwx,vwy用于指代3.2部分描述的整合網(wǎng)絡。

詞對分類.每一個(x,y)詞對被用于表示詞匯句法路徑的多重集合,這些路徑將語料庫中的x,y聯(lián)系在一起,同是對所有的詞對實施監(jiān)管。我們用每一個詞對的路徑矢量的平均權(quán)值表示該詞對(x,y)。在計算過程中,我們對該詞對的路徑矢量進行平均分攤:

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

其中,fp(x,y)表示paths(x,y)中o的頻率。然后,我們將該路徑矢量存儲入一個單層網(wǎng)絡中,該網(wǎng)絡運用二分分類法確定y為x的上義詞。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

為一個2維度的矢量, 其組成成分的總和為1,倘若c[1]>0.5,我們將該詞對劃分為肯定詞對。

實施細節(jié) .我們運用PyCNN來練習該網(wǎng)絡。我們運用迷你批量10與亞當更新規(guī)則,結(jié)合基于梯度的優(yōu)化方法,最大限度地降低交叉熵(Kingma & Ba, 2014)。通過減少成分嵌入,以實現(xiàn)應用正規(guī)化。我們使用驗證集合(參照超參數(shù)值的附錄)調(diào)整超參數(shù)(學習速率與輟學率)。

采用在維基百科上訓練使用過的預先訓練GloVe單詞嵌入方式,實現(xiàn)詞條嵌入的初始化進程(Pennington et al., 2014)。我們嘗試使用50維度與100維度的嵌入矢量,選擇出那些在驗證集合中得出較好結(jié)果的矢量。其他的嵌入矢量及詞匯量之外的詞條都被隨機初始化。在訓練過程中,對所有的嵌入矢量實施更新。

3.2經(jīng)整合的網(wǎng)絡

3.1呈現(xiàn)的網(wǎng)絡依據(jù)語料庫中,連接x,y的路徑對每一個術(shù)語對(x,y)進行分類。我們的目標是改善先前基于路徑的上下義關(guān)系檢測方法,第6部分顯示我們的網(wǎng)絡確實超過了先前使用的檢測方法。然而,由于基于路徑式的與分布式的方法被認為具有互補性,我們提出一種更為簡單的方法,即將分布式特征整合入網(wǎng)絡中。

我們對該網(wǎng)絡進行拓展,旨在將每一個屬于的分部信息考慮在內(nèi)。受到監(jiān)督分布式級聯(lián)方法(Baroni et al., 2012)的啟發(fā),我們簡單地將x,y,詞匯嵌入與(x,y)特征矢量聯(lián)系在一起,重新定義為vxy:

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

其中,vwx,vwy分別為x,y的 詞匯嵌入矢量,vpaths(x,y)為方程中的平均路徑矢量。運用這種方法,每一個詞對(x,y)可以用其分布特征,x,y,及其基于路徑的特征表示。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表1:每一種詞匯來源中的上下義關(guān)系

4 數(shù)據(jù)集

4.1創(chuàng)建實例

神經(jīng)網(wǎng)絡多需要大量的訓練數(shù)據(jù),然而,現(xiàn)有的上義詞數(shù)據(jù)集,如BLESS (Baroni & Lenci, 2011),相對來講都比較小。因而,我們通過知識資源遠程監(jiān)控這一常見的方法,創(chuàng)建一個數(shù)據(jù)集(Snow et al., 2004; Riedel et al., 2013 )。Snow 等人(2004)基于詞網(wǎng)上義詞關(guān)系創(chuàng)建了自己的數(shù)據(jù)庫,仿照其創(chuàng)建方法,我們從以下幾種數(shù)據(jù)資源中選取上下義關(guān)系:Wordnet (Fellbaum, 1998), DBPedia (Auer et al., 2007),Wikidata (Vrandecic, 2012),及Yago (Suchanek et al., 2007).

我們數(shù)據(jù)集中的所有實例,肯定的與否定的,都是至少與其中一種數(shù)據(jù)資源存在直接聯(lián)系的詞對。這些語言資源包含成百上千種語義關(guān)系,其中有一些具有不同程度的上下義關(guān)系。為了避免出現(xiàn)有問題的關(guān)系類型,我們僅考慮那些無爭議的上下義關(guān)系,將其視為肯定的實例(見表格1),這些無爭議的上下義關(guān)系是我們從Shwartz 等(2015)的論文中人工甄選獲得的。

與其他語義關(guān)系(包括同義詞關(guān)系)相關(guān)聯(lián)的詞對均被當作否定的實例。將相互關(guān)聯(lián)而非隨機性的詞對當作否定實例,可以測驗我們所選用方法的區(qū)分上下義關(guān)系與其他類型語義關(guān)系的效果。在我們的數(shù)據(jù)集中,肯定與否定詞對的比例保持在1:4。

與Snow等人對詞對的選取方法相似, 我們的數(shù)據(jù)集中只包括在語料庫中聯(lián)合出現(xiàn)的詞對,這將要求每一個詞對至少擁有兩個不同的依賴路徑。

4.2隨機型分割與詞匯數(shù)據(jù)集分割

作為我們主要的數(shù)據(jù)集,我們使用標準化隨機分割法,其中訓練占70%,測試占25%,驗證集合占5%。

Levy等人(2015)指出,監(jiān)督分布式詞匯推理方法有運用“詞匯記憶”的趨勢,即在很大程度上,他們學習詞對中單一詞匯的性質(zhì):該詞匯是否是一個典型的上義詞,而非學習兩個詞匯之間的關(guān)系。例如,如果訓練集合中包含如下詞對,如(dog,  animal), (cat, animal), (cow, animal), 且所有這些詞對都被注釋為肯定詞對,該算法便可能將animal當作上義詞,將任何新的(x, animal)詞對視為肯定詞對,不論x與animal之間存在何種關(guān)系。Levy等(2015)建議拆分列與測試集,旨在使每一列與每個測試集都包含一個具有特征的詞匯(“詞匯分割”),防止出現(xiàn)過度擬合詞匯記憶的模型。

為了調(diào)查上述出現(xiàn)的行為,我們也將呈現(xiàn)我們的數(shù)據(jù)集的詞匯分割結(jié)果。如此一來,我們將訓練,測試及驗證集合分割開來,使每一部分都包含一個特征明顯的詞匯。值得注意的是,我們采用不同于Levy等人的方法,Levy等人僅對列與測試集合進行分割,主要使用驗證集合。之所以采用不同于前人的方法,是由于我們注意到,當驗證集合中包含列中的詞匯時,當調(diào)整超參數(shù)時,詞匯記憶會對該模型產(chǎn)生積極影響,最終在詞匯特征測驗集合中計算產(chǎn)生不理想的性能結(jié)果。當每一個集合中都包含一個特征詞匯時,需要調(diào)整參數(shù)以避免詞匯記憶現(xiàn)象,在測驗集合中進行計算時將得出更為理想的結(jié)果。進行詞匯分割時,我們試圖將比例大致保持在70/25/5。以上所創(chuàng)建的數(shù)據(jù)集規(guī)模將呈現(xiàn)在表格2中。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表格2:每一個數(shù)據(jù)集中實例的數(shù)量

的確,訓練一個詞匯分割數(shù)據(jù)集模型可能會產(chǎn)生一個更具普適性的模型,這種模型在推理過程中將會更有效地處理包含兩個不可見詞匯的詞匯對。然而,我們認為,在普通的應用過程中,該推理過程應當設計一個不可見的詞對(x,y),在這樣的詞對中,x和/或y已經(jīng)在單獨的語料中出現(xiàn)過。訓練使用隨機分割法的模型可能會采用顯示上下義關(guān)系或同義關(guān)系的優(yōu)先概率的模型,這一優(yōu)先概率信息將在推理過程發(fā)揮有益的作用。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

圖表3:將x歸納為y的實例

5 .基線

我們通過對比Hype NET與幾種最好的方法來檢測上下義關(guān)系,如第二部分所描述:基于路徑的方法與分布式方法。由于不同的工作使用不同的數(shù)據(jù)集和語料庫,我們選擇復制基線,而非與報道結(jié)果進行對比。

自2015年5月起,我們采用維基百科轉(zhuǎn)儲作為所有方法的語料庫,并運用spaCy對其進行分析。我們使用驗證集合進行模型選擇,旨在對每一種方法的超參數(shù)進行調(diào)整。最優(yōu)超參數(shù)將在附錄中呈現(xiàn)。

5.1 基于路徑的方法

Snow .我們參照原始文章,并提取四條邊之間最短的路徑,或依賴樹中詞匯之間較短的路徑。與Snow等人(2004)采用的方法相似,我們?yōu)槊恳粭l路徑添加“衛(wèi)星邊”,即那些早已脫離依賴路徑的單一詞匯,這些詞匯或與x相連,或與y相連,形成“將Y歸納為X”的路徑。這些特征路徑的數(shù)量為324,578。我們運用x2特征選擇法保存100,000條信息量最大的路徑,并訓練使用一種邏輯回歸分類器。

歸納. 我們也將采用的方法與使用普通依賴路徑的基線進行對比。在此過程中生成所有可能歸納方法的冪集,其中包括原始路徑。例如,經(jīng)歸納后的特征數(shù)量總計為2,039,220。與第一種基線相似,我們選用特征選擇法,此次保留1,000,000條蘊含最大信息量的路徑,在普通路徑的基礎上練習使用一種邏輯回歸分類器。

5.2 分布式方法

無監(jiān)管式方法 .SLQS (Santus 等,2014)是一種基于熵的上下義關(guān)系檢測方法,據(jù)報道,這種檢測方法由于先前使用的state-of-the-art無監(jiān)管式方法。原始文章在BLESS數(shù)據(jù)集中得到評估,該數(shù)據(jù)集由大量常用詞組成。將同時包含罕見詞匯的SLQS設置方法用于檢測我們的數(shù)據(jù)集,最終產(chǎn)生較低性能的結(jié)果。因而,我們獲得了Enrico Santus的幫助,經(jīng)過調(diào)整系統(tǒng)后,他為我們提供了我們的數(shù)據(jù)集在SLQS中的檢測結(jié)果。

該驗證集合被用于調(diào)整將一個詞對劃分為肯定次對的閾值,及每一個詞匯最相關(guān)的語境數(shù)量N的閾值。在原始文章中,每一個詞匯相關(guān)聯(lián)的語境數(shù)量被設定為N,經(jīng)過調(diào)整后,該數(shù)量被設定為LMI零分以上的語境數(shù)量和N之間的最小值。此外,SLQS分數(shù)并不會詞匯之間相似分數(shù)的余弦值的變化而增長。

監(jiān)管式方法 .為了表示帶有分布式特征的詞對,我們嘗試過幾種state-of-the-art方法。我們下載了幾種不同型號的前訓練嵌入方法,并訓練使用了一定數(shù)量的分類器:邏輯回歸,SVM,帶有RBF樞紐的SVM。據(jù)Levy等人(2005)最后一種分類器這組分類器中性能最優(yōu)的。我們運用驗證集合選擇模型,旨在甄選出最優(yōu)矢量,最優(yōu)方法與正則因子(見附錄)。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表4:基于數(shù)據(jù)集的兩個變體上,將我們所使用的方法與以線路為基礎的基準線和先進的分布方法比較在上下位檢測方面的性能——詞匯分割和隨機分割都會用于訓練,測試和證實。

6.結(jié)果

表4展示了HyperNet的性能評分及其基準線。HyperNet Path-based是基于路徑的遞歸神經(jīng)網(wǎng)絡系統(tǒng),HyperNet Integrated是一個復合方法。比較基于路徑的得出推廣路徑能提高重復率但是也能保持相同水平的準確率,Nakashole等人發(fā)現(xiàn)了這一現(xiàn)象并進行重新評估。HyperNet Path-based 表現(xiàn)優(yōu)于其余兩個Path-based基準線,因為它在重復方面有重大提高,盡管在準確度方面有所下降。重復的提高是由于路徑的推廣,就如在7.1部分所示。

考慮到分配的方法,為受監(jiān)督的SLQS基準線在我們的數(shù)據(jù)集上表現(xiàn)要稍遜一些。精準度不夠的原因在于區(qū)分上義詞和部分名詞的不足,這一現(xiàn)象在我們數(shù)據(jù)集中也十分常見,進而造成了許多錯誤的陽性詞配對,例如(zabrze,poland)和(kibbutz,israel)。在每一個數(shù)據(jù)分集中我們分別采樣50個誤報對,發(fā)現(xiàn)38%的誤報對出現(xiàn)在隨機分裂中而48%的誤報對出現(xiàn)在詞匯分割中,且都是整體部分詞對。

根據(jù)之前所報道的結(jié)果,監(jiān)督下的嵌入式方法在我們的數(shù)據(jù)集上表現(xiàn)最好。HyperNET Path-based表現(xiàn)次之,實現(xiàn)了最優(yōu)的結(jié)果。在我們的方法中添加分布式特征顯示出這兩個方法確實是互補的。在數(shù)據(jù)分割方面,HypeNET Integrated和HypeNET Path-based表現(xiàn)有差別,此外分布式方法也是一樣,有實質(zhì)性區(qū)別,并且p值相差較大在1%左右(配對tc測試)。

我們對在詞匯分割部分表現(xiàn)較差的受監(jiān)督分布式方法進行再評估。進一步觀察到在使用HypeNET時會有類似的減少,但這不是哪一個詞匯記憶的結(jié)果,而是由于過度概括導致的。

7.分析

7.1 對所學路徑進行質(zhì)量分析

通過比較被以路徑為基礎的方法所學的指示性路徑的顯著差別,我們對HypeNET在路徑結(jié)構(gòu)方面的概括能力進行分析。我們這樣做的原因在于尋找能促進在數(shù)據(jù)集中進行實報對分類的高得分的路徑。基于以路線為基礎的基準線,數(shù)據(jù)回歸分類器能學習加權(quán)最高的特征。在以LSTM為基礎的方法中,不易直接鑒別出最有指示性的路徑。我們對特定路徑p在分類方面的貢獻進行評估,通過將它視作是出現(xiàn)在術(shù)語對中的唯一路徑,并從分類方面計算它的真實標記分數(shù)。

Snow的方法是學習特定的路徑,這是一個有名的模式,例如X來自于Y。盡管Snow的方法是依靠逐字路徑,會限制重復,但是Snow的廣義版本能做出簡略的概括,例如,X是Y的動詞形式。顯然,這一路徑太過于廣泛,并且?guī)缀跛械膭釉~都會被分配到里面,最后導致路徑?jīng)]有指示作用(例如,X來自于Y)。通過努力學習這一方法能避免這種泛化和減低重復。HypeNET提供了一個更好的中點,通過學習額外的相似語義路徑能更好地規(guī)劃路徑,例如,X成為Y的一種形式或X是Y的一種形式。在表5中將會對這些額外的例子路徑進行行為解釋。

我們還注意到盡管是在隨機分割上,我們的模式還是能學習到比較寬廣的路徑,例如X在Y發(fā)表(是從以下實例得出的:Y=雜志)或是X是由Y產(chǎn)生的(Y=電影),在詞匯分割中僅僅能知道X和廣泛的路徑關(guān)系。我們注意到X是Y是一個比較“吵鬧”的路徑,可能會出現(xiàn)在特定的場景下,但并未指明廣泛的上下義關(guān)系(例如,巧克力就兒童的健康而言是一個大問題。)而這樣的模式可以基于一般路徑,識別看不見的上下義關(guān)系,這也證明過度泛化會影響表現(xiàn),如表4所示。正如在4.2部分所討論的一樣,我們會懷疑在這一中環(huán)境下,兩者的關(guān)系是不可見的,并且用于訓練設置也是不常見的。

7.2 錯誤分析

誤報 我們對誤報進行分類,其主要依據(jù)是在資源中用于建立數(shù)據(jù)集每一對術(shù)語之間的關(guān)系。我們從不同的方面到廣義的分類對語義關(guān)系進行分類,例如,同義詞也包括別名和維基百科重定向等方面。表6向我們展示了在誤報對之間的語義關(guān)系分布。

超過20%的錯誤源于上下位關(guān)系詞或同義詞之間的混淆,著一關(guān)系的辨別也是十分的困難的。

額外30%的術(shù)語詞對會將上下位詞對弄顛倒(y是x的下位詞。)檢查這一些詞對實例就能發(fā)現(xiàn)這些詞對是近似同義詞,但是卻不是兩者之間的關(guān)系并沒有如此明確。例如,在WordNet中小說(fiction)是故事(story)的上位詞,但是我們卻經(jīng)常認為兩者是同義詞。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表5:通過研究每一種方法得出的實例具有指示性的路徑,同時也從隨機分割測試集中選取相應的實報術(shù)語對。上位詞用紅色標記,下位詞用藍色標記。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表6:在誤報詞對之間每一對術(shù)語之間的關(guān)系分布。

 ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測

表7:(重合)的漏報的種類:(1)x和y同時出現(xiàn)少于25次(每一對實報詞對平均共同出現(xiàn)的次數(shù)是99.7)。(2)x或是y都不常見。(3)x的上位關(guān)系十分罕見。(4)(x,y)錯誤注釋為陽性。

未來的一個可能研究方向就是擴展我們的網(wǎng)絡在進行詞對分類的同時也進行多語義關(guān)系分類。這種分類模式能更好地劃分具有相似語義的詞對。

另一個值得注意的種類就是類似上下位的關(guān)系:在資源中,有其他一些關(guān)系能看做是上位詞,但是卻由于對于來自資源中不具爭議上位詞的嚴格選擇往往會被注釋為陰性。這包括的實例有(歌德(Goethe)職業(yè)(occupation),小說家(novelist)和Homo,subdivisionRanks以及物種(species))。

最后,其他的錯誤往往對應詞會在語料庫中共現(xiàn)幾次,例如,xebec,動畫制作的工作室,會錯誤地歸類為動畫的下位詞。

漏報 我們?nèi)?0個被錯誤注釋為陰性的術(shù)語詞對,并分析主要的錯誤類型(見表7)。

大多數(shù)的這類詞對在語料庫中僅僅會共現(xiàn)幾次。導致這一現(xiàn)象的原因是因為不常見的術(shù)語(例如,cbc.ca)或是xde 上位詞關(guān)系不常見(例如night,paly)其主要意思是“Night”,是Harold Pinter所寫的一部戲劇。而這一術(shù)語詞對有太多的上位詞暗示路徑,導致分類成陰性。

8.總結(jié)

我們在上位詞檢測時使用HypeNET,一個以神經(jīng)網(wǎng)絡為基礎的方法。首先我們專注于使用LSTM提高路徑表現(xiàn),最后導致以路徑為基礎的模式比之前的路徑模式表現(xiàn)要更好,并把之前的表現(xiàn)出色的分布方法進行匹配。此外特別值得注意的是,重復的提高是由相似語義路徑的過度泛化導致的,這一之前的方法剛好相反,之前的方法既不會路徑過度泛化也不會泛化不足。

接下來通過整合分布式信號拓展我們的網(wǎng)絡,產(chǎn)生額外14個F1點的提升,進而也證明了以路徑和分布為基礎的方法確實是互補的。

最后我們的框架是直接適用于多種類分類,在今后的工作中可以用來分類詞對的多種語義關(guān)系。

 哈爾濱工業(yè)大學李衍杰副教授的點評:理清詞對關(guān)系是自然語言處理(NLP)領域中一項關(guān)鍵的任務,該論文提出了一種結(jié)合基于路徑方法和分布式方法兩種方法的HypeNET方法,用于上下文語境檢測。論文受最近關(guān)系分層方面研究的啟發(fā),使用了一個長短期記憶(LSTM)網(wǎng)絡進行依賴路徑的編碼,從而改善了基于路徑的方法,導致以路徑為基礎的模式比之前的路徑模式表現(xiàn)要更好,然后將分布式信號結(jié)合到這個網(wǎng)絡中,這種結(jié)合證實了分布式信號和基于路徑的信號確實提供了互補的信息,極大地提升了性能。作者還指出該框架似乎可以直接適用于多類分類。

PS : 本文由雷鋒網(wǎng)獨家編譯,未經(jīng)許可拒絕轉(zhuǎn)載!更多ACL相關(guān)資訊掃碼關(guān)注微信群

ACL2016最佳論文:通過整合基于路徑的方法和分布式的方法,改善詞對檢測



雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說