0
本文作者: 木子 | 2018-10-25 16:27 | 專題:語(yǔ)言智能的技術(shù)與商業(yè)前沿 | 走進(jìn)深度好奇 |
雷鋒網(wǎng)按:本文原作者為深度好奇研究組,原發(fā)表于公眾號(hào)“深度好奇AI”(deeplycurious)。雷鋒網(wǎng)已獲授權(quán)轉(zhuǎn)載。
論文題目:Zooming Network
論文地址:(請(qǐng)戳此處)
神經(jīng)網(wǎng)絡(luò)模型之所以能夠在人工智能的各個(gè)領(lǐng)域大放異彩,除了憑借強(qiáng)大的擬合能力和各類梯度下降方法之外,還要依靠網(wǎng)絡(luò)結(jié)構(gòu)基于數(shù)據(jù)信息分布特征的針對(duì)性設(shè)計(jì)。比如,多層全連接網(wǎng)絡(luò)雖然在理論上可以擬合任何函數(shù),實(shí)際應(yīng)用中的效果卻往往差強(qiáng)人意;而另一方面,多層卷積神經(jīng)網(wǎng)絡(luò)由于采用了類似大腦初級(jí)視覺皮層信息處理方法的卷積操作與參數(shù)共享方法,對(duì)圖像信息進(jìn)行高效的特征提?。ǔ浞掷昧藞D像中的平移不變性、局部信息連續(xù)性),可以使用少得多的參數(shù)在圖像處理任務(wù)上取得非常好的效果。
我們認(rèn)為自然語(yǔ)言處理領(lǐng)域尚無(wú)一種類似卷積網(wǎng)絡(luò)的在圖像處理領(lǐng)域具有奠基作用的模型。究其原因,是我們尚未充分利用自然語(yǔ)言數(shù)據(jù)和任務(wù)天然具有的特征進(jìn)行模型結(jié)構(gòu)的改進(jìn)。自然語(yǔ)言天然地具有如下特征:1)自然語(yǔ)言(文本)是由一些基本語(yǔ)言單元(如單詞、字、詞)構(gòu)成的序列;2)語(yǔ)言單元具有層級(jí)特征,低級(jí)語(yǔ)言單元可以構(gòu)成高級(jí)語(yǔ)言單元(如多個(gè)字可以組成一句或一段文本);3)語(yǔ)言單元的劃分不是隨機(jī)的,而是包含著語(yǔ)者或作者的信息表達(dá)策略;4)不同于圖像數(shù)據(jù),基本語(yǔ)言單元不具有像素一樣的局部連續(xù)性,而是高度信息符號(hào)化的。
為了更好地利用上述文本特征,我們提出了變焦網(wǎng)絡(luò)(Zooming Network)的概念。整體上看,變焦網(wǎng)絡(luò)由三個(gè)主要部分組成:層次化編碼模塊、變焦控制器模塊、符號(hào)推理模塊,分別完成針對(duì)語(yǔ)言單元特點(diǎn)的編碼過程、解碼過程,以及針對(duì)自然語(yǔ)言符號(hào)化的推理輔助解碼。我們將該網(wǎng)絡(luò)設(shè)計(jì)應(yīng)用到長(zhǎng)文本序列標(biāo)注任務(wù)上,取得了非常好的效果(f1 score超過bi-LSTM-crf模型10%以上)。
人在閱讀文本時(shí)既按照時(shí)間順序累積信息,又伴隨著不同級(jí)別的信息抽象。這對(duì)應(yīng)著人類語(yǔ)言文字共有的兩個(gè)重要特征:時(shí)序化和分級(jí)化。我們對(duì)與編碼模塊的設(shè)計(jì)就是利用了這兩個(gè)特征:使用雙向長(zhǎng)短時(shí)記憶層(bi-LSTM)對(duì)單一語(yǔ)言單元層級(jí)進(jìn)行順序地讀取、編碼;使用最大池化操作(max-pooling)模仿人腦由低級(jí)語(yǔ)言單元抽象高級(jí)語(yǔ)言單元信息的過程。通過層次化編碼,我們賦予每一級(jí)每一個(gè)語(yǔ)言單元一個(gè)向量表示(hierarchical distributed memory),并保留其句段劃分的分界信息。
變焦控制器本質(zhì)上是一個(gè)序列決策模型。不同于經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型:1)變焦控制器每次不是接收單個(gè)基本語(yǔ)言單元的信息,而是接收當(dāng)前位置上的字、句、段三級(jí)信息,這樣可以使模型同時(shí)掌握細(xì)節(jié)特征(detailed local feature)和整體特征(global feature),以更好地進(jìn)行狀態(tài)更新。2)在每個(gè)解碼標(biāo)簽序列的時(shí)刻,變焦控制器可以選擇當(dāng)前解碼長(zhǎng)度,可以選擇輸出任意層級(jí)語(yǔ)言單元對(duì)應(yīng)的標(biāo)簽,而不僅限于基本語(yǔ)言單元(字/字符)。3)在預(yù)測(cè)標(biāo)簽之后,讀取位置會(huì)自動(dòng)跳轉(zhuǎn)到與解碼層級(jí)一致的下一語(yǔ)言單元的開頭,而不是直接跳轉(zhuǎn)到下一個(gè)基本語(yǔ)言單元。這種解碼過程使得變焦控制器對(duì)文本表征的閱讀方式更加靈活,在信息分布稀疏的部分可以快速略讀(Zoom out),在信息分布集中的部分可以逐字精讀(Zoom in)。
在解碼過程中,我們可以通過自然語(yǔ)言文本的一些“寫作習(xí)慣”特征和已經(jīng)預(yù)測(cè)出的標(biāo)簽序列,對(duì)下文標(biāo)簽規(guī)則推理出一些建議標(biāo)簽。例如,在大量的垂直領(lǐng)域文本中,常常出現(xiàn)一些有序列舉過程:“1. …… 2. …… 3. ……”。這些有序符號(hào)往往成組出現(xiàn),而且對(duì)應(yīng)內(nèi)容是等位并列關(guān)系,一般具有相同標(biāo)簽(或者相同結(jié)構(gòu)標(biāo)簽)。在實(shí)際使用過程中,我們會(huì)綜合上個(gè)序號(hào)內(nèi)容的處理方式,給出下個(gè)序號(hào)內(nèi)容處理的最佳路徑并以稀疏向量的形式輸入到變焦控制器內(nèi),使其可以更加高效地處理數(shù)據(jù)。
我們將該模型應(yīng)用到兩組數(shù)據(jù)的序列標(biāo)注上:
1)集中式的重點(diǎn)信息抽取:在刑事案件的裁判文書中,對(duì)犯罪事件的具體描述提供了整個(gè)案件的判決依據(jù),有很重要的分析價(jià)值。這些描述往往集中出現(xiàn),但是由于整個(gè)裁判文書的長(zhǎng)度多變,案件復(fù)雜程度不一,對(duì)這些描述的高效抽取既需要快速地略過無(wú)關(guān)信息,又需要在信息出現(xiàn)的段落進(jìn)行精細(xì)的分析。下圖示例中紅色及藍(lán)色的文字表示被Zooming Network抽取出來(lái)的部分,不同的顏色則代表不同的犯罪事件標(biāo)簽。
被告人張三,男,1978年3月17日出生,現(xiàn)因涉嫌犯盜竊罪,于2005年9月21日被羈押,同年10月28日被逮捕,現(xiàn)羈押在北京市海淀區(qū)看守所。
北京市海淀區(qū)人民檢察院指控被告人張三犯盜竊罪,于2006年6月9日向本院提起公訴。本院依法組成合議庭,公開開庭審理了本案。北京市海淀區(qū)人民檢察院指派檢察員武軍出庭支持公訴,被告人李忠士到庭參加訴訟?,F(xiàn)已審理終結(jié)。
經(jīng)審理查明:
被告人張三于2001年4月1日,在本市海淀區(qū)車道溝10號(hào)院東99丙號(hào)樓3單元地下室,撬門入室竊取被害人A的現(xiàn)金人民幣1 700元,竊取被害人B的諾基亞5110型手機(jī)1部、愛立信398型手機(jī)1部,共計(jì)折合人民幣2 667元。贓款、贓物均未起獲。
被告人張三于2001年8月13日,在本市海淀區(qū)萬(wàn)壽路甄家墳集體宿舍,翻窗入室竊取被害人C的現(xiàn)金人民幣7 300元、純金戒指1枚,共計(jì)折合人民幣8 400元?,F(xiàn)贓款、贓物均未起獲。
綜上,被告人張三共盜竊作案2次。
——————————————————————————————————————————
The defendant Zhang San, male, born on March 17, 1978, was detained on September 21, 2005 for suspicion of theft and was arrested on October 28 of the same year. He is now detained at the Haidian District Detention Center in Beijing.
Haidian District People's Procuratorate accused the defendant Zhang San guilty of theft, on June 9, 2006 prosecution to this court. Our court formed a collegiate bench and heard the case openly. Beijing Haidian District People's Procuratorate appointed inspector Wu to appear in court to support the prosecution, the defendant Li Zhongshi to attend the proceedings. Now trial ended.
After trial found:
On April 1, 2001, defendant Zhang San stole the victim's cash of RMB 1,700 in the basement of Unit 3, Building 99, Lane 10, Lane 10, Lane, Haidian, Haidian, to steal the victim's Nokia 5110 A mobile phone, Ericsson 398 mobile phone 1, a total of 2 667 yuan equivalent. Stolen money, stolen goods have not played.
On August 13, 2001, the defendant, Zhang San, stole the victim's C for 7,300 yuan in cash and 1 piece for the pure gold ring in a rented apartment in Zhenjiafen, Wanshou Road, Haidian District, on August 13, 2001. The total amount was equivalent to 8,400 yuan . Now stolen money, have not been stolen goods.
To sum up, the defendant Zhang three commoner theft 2 times.
2)分散式的重點(diǎn)信息抽取:在知識(shí)產(chǎn)權(quán)糾紛案件的裁判文書中,案件的核心是原被告雙方爭(zhēng)議的焦點(diǎn)。這些信息隨著對(duì)糾紛的描述不定位置地出現(xiàn),出現(xiàn)形式也復(fù)雜多變,進(jìn)一步要求模型對(duì)處理路徑的靈活選擇。下圖示例中紅色及藍(lán)色的文字表示被Zooming Network抽取出來(lái)的部分,不同的顏色則代表不同的爭(zhēng)議焦點(diǎn)標(biāo)簽。
本院認(rèn)為,原告張三是涉案發(fā)明專利的專利權(quán)人,該專利至今在有效期限內(nèi),法律狀態(tài)穩(wěn)定,應(yīng)受法律保護(hù)。任何單位或者個(gè)人未經(jīng)專利權(quán)人許可不得實(shí)施該專利,否則應(yīng)承擔(dān)相應(yīng)法律責(zé)任。
綜合本案當(dāng)事人的訴辯意見,本案爭(zhēng)議焦點(diǎn)主要在于以下兩個(gè)方面:1.被控侵權(quán)產(chǎn)品是否落入涉案專利權(quán)利要求1的保護(hù)范圍;2.被告的侵權(quán)責(zé)任應(yīng)如何承擔(dān)。
—————————————————————————————————————————————————————————————————
The court held that the plaintiff Zhang San was the patentee of the invention patent involved in the patent so far, and the patent so far has a stable legal status and should be protected by law. Any unit or individual may not implement the patent without the permission of the patentee, or shall bear the corresponding legal responsibility.
Based on the opinions of the parties involved in this case, the focus of the dispute in this case lies mainly in the following two aspects: 1. Whether the accused infringing product falls into the protection scope of Claim 1 of the patent involved; 2. How the defendant's tort liability should be borne.
我們使用序列標(biāo)注經(jīng)典最優(yōu)模型bi-LSTM-crf作為baseline model來(lái)比較模型的處理性能,實(shí)驗(yàn)結(jié)果如下(模型參數(shù)數(shù)量為同一量級(jí)):
其中,WA指word-level的整體準(zhǔn)確率,wlar指模型使用的逐字讀取行為占全部處理行為的數(shù)量比例??梢钥闯?,變焦網(wǎng)絡(luò)的性能遠(yuǎn)超基線模型,而且具有很高的處理效率(大量地使用句、段級(jí)別的標(biāo)簽預(yù)測(cè)行為)。這個(gè)過程的具體示例如下:
被告人張三,男,1978年3月17日出生,現(xiàn)因涉嫌犯盜竊罪,于2005年9月21日被羈押,同年10月28日被逮捕,現(xiàn)羈押在北京市海淀區(qū)看守所。
北京市海淀區(qū)人民檢察院指控被告人張三犯盜竊罪,于2006年6月9日向本院提起公訴。本院依法組成合議庭,公開開庭審理了本案。北京市海淀區(qū)人民檢察院指派檢察員武軍出庭支持公訴,被告人李忠士到庭參加訴訟?,F(xiàn)已審理終結(jié)。
經(jīng)審理查明:
被告人張三于2001年4月1日,在本市海淀區(qū)車道溝10號(hào)院東99丙號(hào)樓3單元地下室,撬門入室竊取被害人A的現(xiàn)金人民幣1700元,竊取被害人B的諾基亞5110型手機(jī)1部、愛立信398型手機(jī)1部,共計(jì)折合人民幣2667元。贓款、贓物均未起獲。
被告人張三于2001年8月13日,在本市海淀區(qū)萬(wàn)壽路甄家墳集體宿舍,翻窗入室竊取被害人C的現(xiàn)金人民幣7 300元、純金戒指1枚,共計(jì)折合人民幣8400元。現(xiàn)贓款、贓物均未起獲。
綜上,被告人張三共盜竊作案2次。
上述事實(shí),被告人張三在開庭審理過程中亦無(wú)異議,且有物證涉案物品價(jià)格鑒定(認(rèn)證)結(jié)論書,被告人的供述等證據(jù)證實(shí),足以認(rèn)定。
本院認(rèn)為,被告人張三以非法占有為目的,多次秘密竊取他人財(cái)物,數(shù)額較大,其行為已構(gòu)成盜竊罪。公訴機(jī)關(guān)指控的事實(shí)、罪名成立,本院予以確認(rèn)。據(jù)此,為保護(hù)公私財(cái)產(chǎn)權(quán)利不受侵犯,懲罰犯罪,依照《中華人民共和國(guó)刑法》,判決如下:
被告人張三犯盜竊罪,判處有期徒刑一年。
審 判 長(zhǎng) 張某某
人民陪審員 曲某某
人民陪審員 楊某某
其中,藍(lán)色部分表示模型使用了句級(jí)、段級(jí)的預(yù)測(cè),紅色部分表示模型使用了字級(jí)的預(yù)測(cè)??梢钥闯?,在信息意義不大的部分,模型選擇了略讀,而在關(guān)鍵信息出現(xiàn)的地方,模型采用了精讀的方式處理。另外一個(gè)有意思的現(xiàn)象是,模型對(duì)于“經(jīng)審理查明”等帶有指示功能的語(yǔ)句一樣采用了精讀方式處理。
借助句段結(jié)構(gòu)信息,變焦神經(jīng)網(wǎng)絡(luò)很好地結(jié)合了泛讀與精讀過程,可以更好地對(duì)長(zhǎng)時(shí)依賴特征進(jìn)行建模,引入大跨度動(dòng)作提高效率,尤其在篇幅很長(zhǎng)的文本處理中表現(xiàn)得更為明顯,在關(guān)鍵信息的抽取任務(wù)上,f1值較經(jīng)典序列標(biāo)注模型(biLSTM+CRF)有10%以上的提升。在此基礎(chǔ)上引入神經(jīng)符號(hào)化推理模塊后,其處理效率又有了一個(gè)顯著提升。變焦神經(jīng)網(wǎng)絡(luò)非常適合應(yīng)用于各類長(zhǎng)文本處理任務(wù)當(dāng)中,其使用的編解碼方式也可結(jié)合其他技術(shù)推廣到各類自然語(yǔ)言處理任務(wù)中,產(chǎn)生新的火花。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。