詞向量因何存在：一段往計算機(jī)輸入文字的歷史

本文作者： MrBear

2020-07-27 16:00

導(dǎo)語：以史為鑒，可以知興替。

向計算機(jī)輸入文字，是整個自然語言處理（NLP）領(lǐng)域的宏大故事的一部分，而 NLP 則是人工智能的重要分支研究領(lǐng)域。

NLP中，最細(xì)粒度的部分就是詞語，詞語組成句子，句子再組成段落、篇章、文檔。而語言作為人類獨有的表達(dá)方式，如果要輸入到計算機(jī)中，則要將語言中的一個個詞語轉(zhuǎn)換成數(shù)值形式，這就需要用到詞向量，或者說詞嵌入的方法。

因而，要想研究好NLP ，勢必要對詞向量有透徹的理解。

讀罷此文，你將對詞向量有一個一般性的認(rèn)識：它們?yōu)楹味嬖?，它們解決了什么問題，它們源自何處，它們隨著時間如何變化？以及，目前關(guān)于詞向量有哪些有待解決的問題？

本文的關(guān)鍵論點包括：

即使是在最基本的單詞層面上，在可計算的條件下表征自然語言文本仍然是個難題。
不同單詞的意義或多或少有其相似之處。人們使用連續(xù)的向量有效地獲取這種性質(zhì)，大規(guī)模的文本語料讓我們可以自動地發(fā)掘許多層面上的詞義相似性。通常，預(yù)料詞典中的每個單詞都有一個但以固定的表征向量。
單詞的意義可以隨著其出現(xiàn)的上下文不同而發(fā)生很大的變化。最新的研究進(jìn)展使用 NLP 和機(jī)器學(xué)習(xí)（ML）領(lǐng)域的常用工具識別并學(xué)習(xí)了這種變化。這些方法在諸多對比基準(zhǔn)上展示出了巨大的性能提升。

1、早期方法：離散化表征

在計算機(jī)中，表征一段文本的最簡單的形式是一個字符序列（根據(jù)編碼的不同，存儲一個字符可能需要一個字節(jié)或多個字節(jié)）。一個詞形可以被表征為一個字符串（字符的有序列表），但是比較兩個字符串是否相同的計算成本卻很高。

在之前，單詞往往都會被整數(shù)化處理。這樣一來，每個詞形都會被賦予一個唯一的（或多或少任意的）非負(fù)整數(shù)值。這樣做的優(yōu)點是每個詞形都以相同大小的空間被存儲下來，基于數(shù)組的數(shù)據(jù)結(jié)構(gòu)可以被用來通過詞形索引其它的信息（如單詞的字符串，對屬于該詞形的詞例進(jìn)行技術(shù)，或者包含單詞潛在語義的細(xì)節(jié)信息的更豐富的數(shù)據(jù)結(jié)構(gòu)）。當(dāng)遇到新的詞形時，詞匯表就會被不斷地擴(kuò)展（直到單詞數(shù)達(dá)到整型數(shù)據(jù)類型的上限，對于 4 字節(jié)無符號整數(shù)來說，這一上限超過了 40 億）。當(dāng)然，我們可以很快地測試兩個整數(shù)是否相同。

整數(shù)本身并不具有任何意義。為整數(shù)分配意義的過程可以是隨機(jī)的，也可以是按照字母順序進(jìn)行的，或者是或根據(jù)詞例在生成單詞表的參考文本語料中出現(xiàn)的順序進(jìn)行（也就是說，第一個出現(xiàn)的詞例的詞形被賦予整數(shù) 0；如果第二個出現(xiàn)的詞例與第一個不同，則將整數(shù) 1 賦予它對應(yīng)的詞形）。具有相關(guān)語義的兩個詞形將會被賦予具有一定「距離」的整數(shù)，兩個在分配的空間中「相近」的詞形彼此之間可能沒有任何關(guān)系。

使用整數(shù)只是遵循當(dāng)下流行的編程語言中可用的數(shù)據(jù)類型的一種方便的表示方法。例如，在 Lisp 語言中，「gensym」也能達(dá)到同樣的目的（盡管效率可能低一些）。因此，我們將基于整數(shù)的詞形表征稱為「離散化表征」。

考慮到 NLP 程序大多都是使用監(jiān)督式機(jī)器學(xué)習(xí)構(gòu)建的，我們認(rèn)為「單詞或多或少存在相似性」的思路是十分重要的。

2、以向量形式存儲詞

為了解釋 NLP 從業(yè)者為什么不再通過離散化的方式處理詞形，很有必要思考單詞是如何在 NLP 程序中被使用的。下面是一些示例：

觀測給定文檔中的一個詞例，以此為證據(jù)（evidence）預(yù)測文檔的類別。

例如，在一段電影影評中出現(xiàn)的「delightful」單詞，說明影評人可能很喜歡這部電影，并給予它一個正面評價。

觀測給定文檔中的一個詞例，以此為證據(jù)在句子翻譯中預(yù)測一個詞例。例如，在英語句子中出現(xiàn)單詞「cucumber」說明在法語翻譯中可能出現(xiàn)單詞「concombre」。

相反，給定證據(jù)的全部權(quán)重，在給定的上下文中，選擇一個詞形并輸出一個它的詞例。

在以上各種情況下，對詞形進(jìn)行離散化處理有一個嚴(yán)重的缺點：有關(guān)如何將一個特定的詞用作證據(jù)，或者是否生成一個輸出詞例的信息，不能在具有相似特性的單詞之間共享。舉個簡單的例子，請考慮填補(bǔ)下面句子中的空缺：

「S.will eat anything, but V. hates _」

根據(jù)你對世界的先驗知識，你可能會傾向于很有把握地填上詞形為「豌豆」（pears）、「豆芽菜」（sprouts）、「雞肉」（chicken）的詞例，或其它代表食物的復(fù)數(shù)名詞。這樣的詞形共有一些性質(zhì)（和其它表示食物的單詞一起），我們希望使用這些單詞的模型能夠用到這樣的信息。兩個不同的單詞可能或多或少具有一些相似性。

考慮到 NLP 程序大多都是使用監(jiān)督式機(jī)器學(xué)習(xí)構(gòu)建的，我們認(rèn)為「單詞或多或少具有一些相似性」的思路是十分重要的。在這里，監(jiān)督式機(jī)器學(xué)習(xí)指的是我們擁有代表一個任務(wù)的輸入和輸出的示例（二者中至少有一個是由單詞組成的），并且有一套根據(jù)這些「輸入-輸出」對泛化的機(jī)制。理想狀況下，這樣的機(jī)制應(yīng)該能夠利用相似性：它發(fā)現(xiàn)的關(guān)于某個單詞的性質(zhì)可以遷移到相似的單詞上。

在本文中，探討兩種將相似性信息引入程序的方法（理性主義和經(jīng)驗主義）。

理性主義告訴我們，人類（尤其是受過人類語言科學(xué)方面訓(xùn)練的人）會知道這些相似性信息，我們可以設(shè)計數(shù)據(jù)結(jié)構(gòu)顯式地對其進(jìn)行編碼，讓我們的程序在需要時訪問這些信息。一個代表性的工作是 WordNet，它使用 13 個詞法數(shù)據(jù)庫存儲單詞及其之間的關(guān)系（例如，同義：兩個單詞意味著同樣的事情；上下位關(guān)系：一個詞的意思是另一個詞更加具象化的表現(xiàn)）。WordNet 也顯式地捕獲了一詞多義的現(xiàn)象（例如，風(fēng)扇：吹動空氣的機(jī)器，有時也指「粉絲」）。句子結(jié)構(gòu)（句法）的語言學(xué)理論提供了另一種方法來思考名詞、動詞這種形式的詞的相似性。
經(jīng)驗主義告訴我們，針對 NLP 應(yīng)用，我們可以使用一組獨立的程序收集并組織信息。隨著網(wǎng)絡(luò)上的文本數(shù)據(jù)越來越多，這種方式逐漸占據(jù)了主導(dǎo)地位。被用于從語料庫中提取信息的程序已經(jīng)經(jīng)歷了幾個階段的發(fā)展（從基于技術(shù)的統(tǒng)計，到使用更先進(jìn)的統(tǒng)計方法建模，再到越來越強(qiáng)大的機(jī)器學(xué)習(xí)工具）。

基于以上兩種思路，我們都會想到通過向量而不是整數(shù)來表示詞形。此時，我們需要確定向量的維度，并賦予不同的維度不同的目的。例如：

為每個詞形賦予一個維度，該維度上賦值為 1（而其它所有的詞形對應(yīng)的維度上的值為 0）。這種方式本質(zhì)上相當(dāng)于對單詞進(jìn)行整數(shù)化處理，單詞被表征為一個獨熱（one-hot）編碼。

對于屬于已知類型的詞形（例如，一周的七天），我們可以使用給定了二進(jìn)制值的維度。

對于具有相同詞根的變體詞形，我們同樣可以使用一個維度將其歸于同一類。例如，「know」、「known」、「knew」、「knows」的某一個維度上都被賦值為 1，而其它與 know 詞根不同的單詞則在該維度上被賦值為 0。

更寬泛地說，我們可以使用表面的屬性將看起來相似的詞形綁定在一起：例如大小寫的模式，長度，出現(xiàn)某個數(shù)字。

如果詞形的存在表示大小關(guān)系的意義，我們可能會分配一些維度來捕獲這樣的大小信息。

在 NLP 領(lǐng)域中，有很多通過賦予向量某些維度，從而表征詞形（或多單詞序列）的例子。這些維度被稱為「特征」，它們可以由專家設(shè)計，也可以通過自動化的算法得到。

3、將詞表征為分布式的向量

在語言學(xué)中，一個重要的思想是：可以通過相似的方式使用的單詞（或表達(dá)）趨向于擁有相關(guān)的語義。在一個大型語料庫中，我們可以收集有關(guān)詞形「w」被使用的方式的信息（例如，統(tǒng)計它子其它詞形附近出現(xiàn)的次數(shù)）。當(dāng)我們研究語料庫中存在 w 的上下文（附近的單詞或句子）的完整分布時，我們采取了一種詞義的分布式視角。

「聚類」就是基于這種思想生成特征的一種成功的方法。例如，Brown 等人提出的聚類算法根據(jù)語料庫中出現(xiàn)的上下文自動地將單詞組織成一些聚類簇。傾向于出現(xiàn)在相同的鄰居上下文的單詞會被劃分到同一個簇中。如圖 1 所示這種方法具有驚人的可解釋性和實用性，我們還可以使用任意給定的語料庫重新構(gòu)建它，包含所有觀測到的單詞。

圖 1：Brown 聚類示意圖。該結(jié)果是根據(jù) 56M 條 tweet 生成的，本圖中給出了以 00110 二進(jìn)制串為前綴的簇的層次結(jié)構(gòu)，以及簇中 10 個出現(xiàn)頻率最高的單詞。樹中的中間節(jié)點對應(yīng)于包含后繼節(jié)點中所有單詞的簇。

另一類方法在一開始需要創(chuàng)建單詞向量，其中每個維度對應(yīng)于詞性在某些上下文中出現(xiàn)的頻率。例如，一個維度可能對應(yīng)于「the」，并且包含在一個詞例「the」附近的一個小的窗口中某單詞出現(xiàn)的次數(shù)。該向量可能包括單詞左側(cè)、右側(cè)，以及不同距離和長度的上下文模式。這樣創(chuàng)建的單詞向量可能比詞匯表的還要行很多倍。我們可以利用線性代數(shù)的降維方法，將這些向量壓縮地更短，從而減少維度之間的冗余。

圖 2：計算單詞向量的方法示意圖。

降維之后的向量有以下優(yōu)點：首先，NLP 程序員可以根據(jù)程序的需要選擇合適的維度。更緊湊的向量計算效率更高，也可能由于特定語料庫的噪聲在壓縮過程中消失而受益。然而，壓縮的代價則是犧牲了一部分原始信息。由于壓縮后的向量中單獨的維度是很難被解釋的，我們可以使用一些常見的算法找到單詞在向量空間中的最近鄰，它們往往是具有相關(guān)語義的單詞。

實際上，這些觀測結(jié)果催生了「向量空間語義」的思想，我們可以對單詞向量進(jìn)行算術(shù)運算，從而理解學(xué)習(xí)到的單詞「意義」。一個著名的例子是：

降維后的向量的缺點在于：獨立的維度并不是可解釋的特征，不能夠直接被映射回構(gòu)建單詞意義的模塊。單詞的意義是分布在整個向量上的；因此，這些向量有時被稱為分布的表征。

隨著語料庫規(guī)模不短增長，可伸縮性成為了一個重大的挑戰(zhàn)。所有詞向量算法底層的思想是：詞形向量的每個維度上的值是一個有待優(yōu)化的參數(shù)。我們通過優(yōu)化這些參數(shù)，最佳地擬合觀測到的數(shù)據(jù)中的單詞模式。由于我們將這些參數(shù)視為連續(xù)的值，而且擬合數(shù)據(jù)的概念可以作為光滑、連續(xù)的目標(biāo)函數(shù)來操作，因此可以通過基于梯度下降的迭代式算法完成優(yōu)化。

研究人員對獲取分布式詞向量的方法進(jìn)行了大量的探索。接下來，我們將列舉出一些有趣的想法：

如圖 3 所示，我們首先將每個輸入的詞例映射到其向量上，然后將詞向量輸入到神經(jīng)網(wǎng)絡(luò)模型中，該神經(jīng)網(wǎng)絡(luò)執(zhí)行類似于翻譯的任務(wù)。向量可以預(yù)先給定（或使用上述方法根據(jù)一個語料庫預(yù)訓(xùn)練得到），也可以作為神經(jīng)網(wǎng)絡(luò)模型的參數(shù)，根據(jù)特定任務(wù)進(jìn)行調(diào)整。「調(diào)優(yōu)」（fine-tuning）是指通過預(yù)訓(xùn)練初始化向量，然后通過特定任務(wù)的學(xué)習(xí)算法來調(diào)整他們。我們也可以隨機(jī)初始化詞向量，從頭開始學(xué)習(xí)。

圖 3：一個簡單的神經(jīng)網(wǎng)絡(luò)示意圖。神經(jīng)網(wǎng)絡(luò)是一種將向量映射到向量的函數(shù)。例如，將二維輸入映射到二維輸出上的函數(shù)：

我們可以使用 WordNet 這種專家構(gòu)建的數(shù)據(jù)結(jié)構(gòu)作為額外的輸入來創(chuàng)建詞向量?！竢etrofitting」方法首先從語料庫中提取出詞向量，然后試圖自動地對其進(jìn)行調(diào)整，使得在 WordNet 中那個相關(guān)的詞形在向量空間中更接近。

我們可以使用雙語詞典，將兩種語言狀態(tài)下的詞向量「對齊」到同一個向量空間中。這樣一來，例如英語詞形「cucumber」和法語詞形「concombre」的向量之間的歐氏距離就很小了。

根據(jù)部分（或全部的）字符序列計算詞向量。這種方法傾向于使用神經(jīng)網(wǎng)絡(luò)將任意長度的序列映射為固定長度的向量。這樣做有兩個有趣的作用：在具有復(fù)雜單詞構(gòu)造系統(tǒng)的語言中，具有相同底層詞根的變體會擁有相似的詞向量；同一單詞的不同拼寫方式將有詳細(xì)的詞向量。

4、上下文相關(guān)詞向量

首先，我們要區(qū)分詞例和詞形。一直以來，在我們的 NLP 程序中，我們都假設(shè)每個詞形都會使用一個固定的數(shù)據(jù)對象（一開始是整數(shù)，后來又發(fā)明了詞向量）來表征。這樣做是很方便，但是它又對語言做出了一些不符合現(xiàn)實情況的假設(shè)。最重要的一點是，單詞在不同的上下文中應(yīng)該有不同的意思。

在粗粒度的級別上，專家們在構(gòu)建 WordNet 時捕獲了這種特性。例如，在 WordNet 中「get」被映射到了 30 多種不同的含義上。然而，應(yīng)該給各個單詞分配多少種詞義（或者確定詞義之間的邊界）一直都是一個難以取得共識的問題。詞義也有可能是隨語境動態(tài)變化的。

事實上，在很多基于神經(jīng)網(wǎng)絡(luò)的 NLP 程序中，首先要做的就是將每個單詞詞例所屬的詞形向量輸入到一個函數(shù)中，然后基于該詞例附近的上下文對這個向量進(jìn)行變換。變換過程如圖 4、圖 5 所示。

圖 4：圖 2 中計算的 3-單詞向量之間的關(guān)系大致的可視化結(jié)果。

圖 5：圖 2 和圖 4 中的詞例「astronomers」、「bodies」、「objects」的上下文相關(guān)詞向量的假想的可視化結(jié)果。

根據(jù)相似性的基本概念，我們期望相似的單詞彼此之間能夠很好地相互替換。有時僅僅根據(jù)詞形是很難確定相似性的，而當(dāng)我們考慮上下文語境時，這個問題就會簡單很多。

在大型語料庫上預(yù)訓(xùn)練得到的 ELMo（基于語言模型的嵌入），以詞例向量（針對上下文中的單詞的向量，上下文相關(guān)向量）的形式帶來了巨大的進(jìn)步。EMLo 背后有兩個主要的思想：

如果每個詞例都有自己的向量，那么這個向量應(yīng)該依賴于附近單詞組成的任意長度的上下文。為了獲得「上下文向量」，我們首先得到詞形向量，然后將它們傳遞給一個神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)可以將任意長度的左右上下文詞向量序列轉(zhuǎn)換為一個固定長度的向量。詞形向量本質(zhì)上是查找表，與之不同的是，上下文相關(guān)詞向量是由代表單詞類型的向量和將每個單詞置于上下文中的神經(jīng)網(wǎng)絡(luò)參數(shù)構(gòu)建的。ELMo 訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)處理左側(cè)的上下文（往回觀測到出現(xiàn)某詞例的句子的開頭），另一個神經(jīng)網(wǎng)絡(luò)處理右側(cè)的上下文（直到句子的結(jié)尾）。原則上說，ELMo 也可能處理更長的上下文。

回想一下，估計單詞向量需要通過求解優(yōu)化問題來擬合數(shù)據(jù)（在這里是語料庫）。語言建模是 NLP 領(lǐng)域中一個長期存在的數(shù)據(jù)擬合問題，它指的是根據(jù)歷史單詞序列預(yù)測接下來的單詞。已經(jīng)被人們所使用的許多詞形向量算法都是基于固定大小的上下文工作的，這些上下文是從語料庫中詞形的所有實例中收集的。ELMo 涉及的語料范圍更廣，它使用任意長度的歷史單詞序列，并直接引入了對應(yīng)情況下最有效的語言模型（基于循環(huán)神經(jīng)網(wǎng)絡(luò)）。盡管循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)在 NLP 領(lǐng)域中被廣泛使用，但是將它們訓(xùn)練為語言模型，然后使用它們?yōu)槊總€詞例提供的上下文向量作為與訓(xùn)練的詞例向量還是很新穎的。

這樣的研究進(jìn)展為什么令人振奮呢？上下文相關(guān)的詞向量是否能完全解決歧義詞帶來的挑戰(zhàn)仍然有待研究。人們往往會在對比基準(zhǔn)測試中使用客觀的性能評價指標(biāo)測試 NLP 領(lǐng)域新的思路。研究人員發(fā)現(xiàn)，ELMo 在以下領(lǐng)域中極大提升了 NLP 程序的性能：

給定一段文字，回答有關(guān)其中內(nèi)容的問題（在 SQuAD 對比基準(zhǔn)上將誤差降低了 9%）。
標(biāo)注動詞的語義論元（在 Ontonotes 語義角色標(biāo)注對比基準(zhǔn)上將誤差降低了 16%）。
解析那些指稱表達(dá)指代的是相同的實體（在 CoNLL 2003 對比基準(zhǔn)上將誤差降低了 4%）。

在語言學(xué)中，一個重要的思想是：可以通過相似的方式使用的單詞（或表示）可能擁有相同的語義。

Howard 和 Ruder 介紹了一種簡單的方法「ULMFiT」，顯示了上下文相關(guān)向量在文本分類問題上的優(yōu)勢。接著，基于 Transformer 的雙向編碼器表征在學(xué)習(xí)方法上引入了一些創(chuàng)新之處，并利用更多的數(shù)據(jù)進(jìn)行學(xué)習(xí)，在第一個任務(wù)中相較于 ELMo 進(jìn)一步降低了 45% 的誤差，在第二個任務(wù)中降低了 7% 的誤差。

在 SWAG 對比基準(zhǔn)測試中，Devlin 等人近期在常識推理任務(wù)中發(fā)現(xiàn) ELMo 相對于上下文無關(guān)詞向量降低了 5% 的誤差，而 BERT 則相對于 EMLo 又降低了 66%。自此之后，一系列論文紛紛涌現(xiàn)了出來，如 GPT-2、RoBERTa、T5、XLM、XLNet。

在作者撰寫本文時，有許多關(guān)于不同方法的相對性能的開放性問題。對于不同的學(xué)習(xí)算法，特別是神經(jīng)網(wǎng)絡(luò)架構(gòu)的完整解釋超出了本文介紹的范圍，但是公平地說，上下文相關(guān)詞向量的可能學(xué)習(xí)器還沒有被充分探索。

5、不足之處

詞向量是有偏的。和許多工程產(chǎn)品一樣，計算機(jī)程序很可能反映出其制造者的觀點。根據(jù)數(shù)據(jù)構(gòu)建的計算機(jī)程序?qū)⒎从吵鰯?shù)據(jù)（在本例中是語料庫）中的內(nèi)容。如果文本語料庫表示了反應(yīng)文化偏見的概念之間的聯(lián)系，那么這些聯(lián)系會在詞向量和使用它們的任何系統(tǒng)中存在。

語言不僅僅是單詞。語言的有效理解和生成不僅僅局限于理解詞義，這還需要知道單詞如何被組合起來形成更加復(fù)雜的概念和命題。這只是 NLP 領(lǐng)域研究的冰山一角，關(guān)于處理自然語言語法、語義和語用的方法，以及我們?nèi)绾螌⑷祟惱斫夂蜕烧Z言的任務(wù)轉(zhuǎn)化為我們可以試著去設(shè)計算法的任務(wù)，還有很多有待研究的問題。關(guān)于上下文相關(guān)詞向量，一個令人驚訝的發(fā)現(xiàn)是：當(dāng)我們使用非常大的語料庫進(jìn)行訓(xùn)練時，它們更容易通過各種句法和語義解析來進(jìn)行排歧。

研究 NLP 問題不應(yīng)該只局限于某一點來看。雖然上述成果令人印象深刻，但是請記住，它們僅僅反映了在研究社區(qū)中出現(xiàn)的少數(shù)對比基準(zhǔn)上的表現(xiàn)。這些對比基準(zhǔn)在某種程度上是有爭議的。只有當(dāng)我們客觀衡量方法的進(jìn)展時，NLP 領(lǐng)域才能得以發(fā)展我們還需要再設(shè)計用于比較的對比基準(zhǔn)和評價指標(biāo)等方面取得突破。

6、接下來，我們該做什么？

在接下來的一些年中，我們希望看到將各種上下文相關(guān)詞向量應(yīng)用于新的問題所帶來的新發(fā)現(xiàn)。例如，構(gòu)建一個系統(tǒng)可能涉及到復(fù)雜的協(xié)議，其中就需要在一系列數(shù)據(jù)集和任務(wù)的組合上執(zhí)行調(diào)優(yōu)和針對特定任務(wù)的訓(xùn)練。

在擁有相對較少的監(jiān)督信號的條件下，如何提升 NLP 程序性能的潛力，也是一個有意思的方向。例如，類似于 EMLo 的方法可以提升低資源類型和語言條件下的 NLP 程序性能。同時，計算開銷較小的方法也有更廣闊的應(yīng)用前景。

希望看到更多人嘗試使用語言學(xué)的術(shù)語來概括這些方法正在學(xué)習(xí)的東西（以及那些沒有學(xué)習(xí)的東西）。

關(guān)鍵論點：

請注意，我們有兩種認(rèn)識「單詞」的角度：

一個「詞例」（word token）指的是在一段文本中觀測到的單詞（A word token is a word observed in a piece of text.）。對于一些語言來說，確定詞例的邊界是一個非常復(fù)雜的過程（而且這些語言的使用者可能并不贊同這種將文本劃分為一個個單詞的「正確」規(guī)則）。但是在英語環(huán)境下，我們傾向于使用空格和標(biāo)點符號劃分單詞。在本文中，我們假設(shè)這種「分詞」（tokenization）問題已經(jīng)被「解決」了。例如，通常情況下，本段的第一句可以被分詞為 13 個詞例（表示句子結(jié)束的句號也被當(dāng)作獨立的詞例來對待）。

一個「詞形」（word type）指的是一個抽象意義上的有特定意義的單詞，而不是某個特定的示例。我們可以說，每個詞例「屬于」其詞形。在上面的分詞示例中，僅僅有 11 個詞形，因為「word」和「a」都有兩個示例共享同一個詞形。（如果我們不考慮大小寫之間的區(qū)別，那么這里就只有 10 個詞形，因為第一個單詞「A」和第五、第九個單詞有相同的詞形）。當(dāng)我們對一個文本集合（也被成為語料庫）中出現(xiàn)的單詞進(jìn)行計數(shù)時，我們就是在統(tǒng)計屬于相同詞形的詞例有多少個。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

Via https://dl.acm.org/doi/pdf/10.1145/3347145?download=true

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。