0
本文作者: 木子 | 2018-10-17 16:22 | 專(zhuān)題:語(yǔ)言智能的技術(shù)與商業(yè)前沿 | 走進(jìn)深度好奇 |
雷鋒網(wǎng)按:本文原作者為深度好奇研究組,原發(fā)表于公眾號(hào)“深度好奇AI”(deeplycurious)。雷鋒網(wǎng)已獲授權(quán)轉(zhuǎn)載。
什么是理解
自然語(yǔ)言理解是人工智能的核心課題之一,也被廣泛認(rèn)為是最困難和最具標(biāo)志性的任務(wù)。最經(jīng)典的兩個(gè)人工智能思想實(shí)驗(yàn)——圖靈測(cè)試和中文房間,都是圍繞自然語(yǔ)言理解來(lái)構(gòu)建的。自然語(yǔ)言理解在人工智能技術(shù)體系中的重要性不言而喻,它一方面承載著機(jī)器和人的交流,另一方面直達(dá)知識(shí)和邏輯。自然語(yǔ)言理解也是人工智能學(xué)者孜孜以求的圣杯,機(jī)器學(xué)習(xí)的巨擘Michael I. Jordan就曾經(jīng)在Reddit上的AMA(Ask Me Anything)欄目中暢想用十億美元建立一個(gè)專(zhuān)門(mén)用于自然語(yǔ)言理解的實(shí)驗(yàn)室。
那么究竟什么是自然語(yǔ)言理解呢?我們可以認(rèn)為,理解是從自然語(yǔ)言到語(yǔ)義的映射,但是這個(gè)定義只是把問(wèn)題轉(zhuǎn)移到了“語(yǔ)義”的定義上,而關(guān)于語(yǔ)義,一直缺乏在形式和功能上都普遍適用的定義。事實(shí)上,語(yǔ)義往往需要被放在特定領(lǐng)域和特定語(yǔ)境下去考量,比如一句“你開(kāi)心就好”,可以在不同的場(chǎng)景下傳達(dá)鄙視和祝愿等多種意思。關(guān)于理解或者語(yǔ)義,我們不得不采取了下面兩種耍賴(lài)式的定義來(lái)刻畫(huà)它們的不同側(cè)面:
語(yǔ)義是特定語(yǔ)境下的語(yǔ)用,也就是說(shuō)一句話(huà)的功效才是對(duì)它含義的最終表征;
理解一個(gè)語(yǔ)言對(duì)象(如一段話(huà)),等價(jià)于可以回答關(guān)于這個(gè)對(duì)象的所有問(wèn)題。
不幸的是,這兩個(gè)定義都不具有完全的可操作性,也就是說(shuō),很難用這個(gè)定義來(lái)自動(dòng)化地衡量對(duì)語(yǔ)義的映射是否準(zhǔn)確,或者理解是否恰當(dāng)。從某種意義上,語(yǔ)義理解在定義上就有點(diǎn)“難以捉摸”和不確定。
這種不確定也導(dǎo)致了人工智能中語(yǔ)義相關(guān)的系統(tǒng)在形式和功能上的多樣性。比如說(shuō),在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(NMT)中,所有的語(yǔ)義表示都是通過(guò)固定長(zhǎng)度的實(shí)數(shù)值向量來(lái)完成。在第一代NMT系統(tǒng)中用一個(gè)很長(zhǎng)的向量來(lái)表示和總結(jié)待翻譯的句子(確切地說(shuō)是混合了語(yǔ)法和語(yǔ)義的信息),這個(gè)向量雖然不可解釋?zhuān)_實(shí)是一個(gè)形式和功能上都完整的表示(關(guān)于用向量表示語(yǔ)義一直有很多爭(zhēng)論,正面的比如G. Hinton的thought vector, 反面的比如R. Mooney的著名論斷)。而在第二代的基于注意力機(jī)制的NMT系統(tǒng)中,這種表示完整語(yǔ)義的設(shè)計(jì)已被淘汰,取而代之的是一個(gè)實(shí)數(shù)向量序列來(lái)表述多個(gè)片段的語(yǔ)義,從而在取得翻譯效果的大幅度進(jìn)步的同時(shí),也在語(yǔ)義表示層面上后撤了一大步。同時(shí)我們注意到,連續(xù)的不可解釋的語(yǔ)義表示在另一些需要和有清晰的語(yǔ)義規(guī)范對(duì)象互動(dòng)的時(shí)候則非常別扭,當(dāng)我們?nèi)プ龌谥R(shí)庫(kù)的問(wèn)答或者基于罪行的描述做審判預(yù)測(cè)時(shí),需要將語(yǔ)義表示和知識(shí)庫(kù)或者規(guī)則系統(tǒng)做對(duì)接。這種時(shí)候,我們會(huì)選擇符號(hào)化的語(yǔ)義表示,如邏輯表達(dá)式、圖或者其他離散的數(shù)據(jù)結(jié)構(gòu)。在本文接下來(lái)的討論中,我們會(huì)假定我們期望的語(yǔ)義表示中至少包含可解釋的離散結(jié)構(gòu)。
理解之難
自然語(yǔ)言理解的困難也是有目共睹,所以當(dāng)前自然語(yǔ)言理解通常是粗粒度、淺層或者是局部的。在常見(jiàn)的和理解相關(guān)的例子中,情感分析往往只是判斷感情是正面還是負(fù)面,而命名實(shí)體識(shí)別等只是標(biāo)出實(shí)體(比如人、組織、地名等)的名稱(chēng),但即使是這樣,準(zhǔn)確率也往往在達(dá)到一定水平之后裹足不前。相比而言,機(jī)器翻譯的快速發(fā)展反而是因?yàn)樗鼘?duì)理解的繞道而行,采取了一種“不懂裝懂”(pretend to understand)的模式。
那么自然語(yǔ)言理解為什么如此困難呢? 我們認(rèn)為,主要有以下四個(gè)原因:
1.自然語(yǔ)言中含有復(fù)雜靈活的表達(dá)方式
我們經(jīng)常用不同的語(yǔ)句表達(dá)同一個(gè)意思,這些不同體現(xiàn)在風(fēng)格、語(yǔ)態(tài)、對(duì)缺省的選擇等眾多方面。比如,下面意思非常接近的兩句話(huà)就采用了不同的語(yǔ)序和風(fēng)格。
A:這里和購(gòu)物中心的距離大約是兩公里,如果坐出租車(chē)的話(huà),路上不堵的情況下大概十分鐘就到了
B:這兒離購(gòu)物中心不遠(yuǎn),打車(chē)也就十分鐘,不堵車(chē)的話(huà),其實(shí)也就兩公里吧
2.長(zhǎng)距離的邏輯關(guān)聯(lián)
自然語(yǔ)言形成的文本中,常常有長(zhǎng)距離的邏輯關(guān)聯(lián)。這種邏輯關(guān)聯(lián)既包含來(lái)自語(yǔ)言結(jié)構(gòu)的依存關(guān)系,也包含語(yǔ)義層面上的邏輯關(guān)系,而且二者互相滲透。以下面的句子為例,它包含了一個(gè)語(yǔ)義信息“這里距離購(gòu)物中心兩公里”,但是要做出這個(gè)判斷,需要跨越句頭和句尾中間的距離,依靠語(yǔ)義上的連續(xù)性來(lái)發(fā)現(xiàn)前后的邏輯關(guān)聯(lián)。這種邏輯關(guān)聯(lián),往往很難靠類(lèi)似循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)這樣的簡(jiǎn)單序列處理模型來(lái)發(fā)現(xiàn)和利用。
3.對(duì)知識(shí)(包含常識(shí)的)的大量依賴(lài)
在文本的理解中,我們往往需要依賴(lài)大量的知識(shí),這些知識(shí)既包括領(lǐng)域知識(shí)和常識(shí)這種長(zhǎng)期知識(shí),也包括在前文中建立的短期知識(shí)。我們通常說(shuō)的“語(yǔ)境”也可以被認(rèn)為是短期知識(shí)的一種。
A:張三偷了一臺(tái)iPhone X,一臺(tái)iPhone 6S和一臺(tái)P20,其中兩臺(tái)蘋(píng)果手機(jī)都已經(jīng)轉(zhuǎn)手
B:車(chē)庫(kù)里有一輛17年的雅閣和一輛09年的凱美瑞,結(jié)果反而是舊車(chē)被偷了
在例A中,在理解“兩臺(tái)蘋(píng)果手機(jī)都已經(jīng)轉(zhuǎn)手”中的具體指代時(shí),我們需要利用以下的知識(shí):
iPhone X是蘋(píng)果手機(jī)
iPhone 6S是蘋(píng)果手機(jī)
P20是華為手機(jī)。
而在例B中,在理解“舊車(chē)被偷了”時(shí),我們不僅需要使用前半句中建立的
雅閣是17年的
凱美瑞是09年的
這兩條知識(shí),我們同時(shí)需要使用“09年的車(chē)比17年的車(chē)更舊”這一常識(shí)。準(zhǔn)確利用這些知識(shí)則需要對(duì)知識(shí)進(jìn)行有效的獲取、表示和調(diào)用。
4.語(yǔ)義表示形式設(shè)計(jì)的困難
語(yǔ)義表示的形式一直以來(lái)是語(yǔ)義解析這個(gè)問(wèn)題上爭(zhēng)論的核心之一。簡(jiǎn)單來(lái)說(shuō),“完備的”語(yǔ)義表示需要能夠包含精確知識(shí)(如“張三殺了李四”),也需要承載語(yǔ)言中的模糊性、不確定性、程度和情感的極性等問(wèn)題。同時(shí)我們期望語(yǔ)義的表示能夠和其他知識(shí)(如語(yǔ)境)進(jìn)行完美的對(duì)接以完成聯(lián)合的表示和推理,比如一句“這水挺燙的”,在水的用途是飲用、泡面、泡腳等不同場(chǎng)景下就可能導(dǎo)致不同的語(yǔ)義(如極性和程度等)。同時(shí),語(yǔ)義表示也需要考慮到實(shí)際的用途和技術(shù)邊界,這種平衡本身就是非常困難和持續(xù)變化的。
我們可以看到,上述困難中有些是深度學(xué)習(xí)所擅長(zhǎng)的,比如神經(jīng)網(wǎng)絡(luò)的方法就可以利用其向量式的“模糊表示”來(lái)處理復(fù)雜靈活的表達(dá)方式;有些是符號(hào)邏輯所擅長(zhǎng)的,比如長(zhǎng)距離的邏輯關(guān)聯(lián);而有些顯然是需要二者合力的,比如對(duì)知識(shí)的依賴(lài),就既需要神經(jīng)網(wǎng)絡(luò)的參數(shù)來(lái)記住和運(yùn)用各種瑣細(xì)靈活的知識(shí),又需要把一些可以被明晰表達(dá)的知識(shí)用符號(hào)性的方式來(lái)存儲(chǔ)和調(diào)用。據(jù)此,我們認(rèn)為,神經(jīng)網(wǎng)絡(luò)和符號(hào)智能的深度結(jié)合才是解決上述困難唯一正確的道路。對(duì)此我們將會(huì)在本文余下的部分做詳盡的闡釋。
為什么神經(jīng)+符號(hào)是正確的道路
正如上文中所闡釋的,人類(lèi)語(yǔ)言理解的過(guò)程、機(jī)制和形態(tài),充滿(mǎn)了符號(hào)性和連續(xù)性的雙重特性,而在人工智能的實(shí)踐中,我們也發(fā)現(xiàn)了二者各自的優(yōu)勢(shì)。在人工智能的歷史上,這就是符號(hào)主義(Symbolism)和聯(lián)結(jié)主義(Connectionism)之爭(zhēng)。我們先來(lái)解釋下神經(jīng)和符號(hào)的概念,以及各自的特點(diǎn)、優(yōu)勢(shì)和劣勢(shì)。這些討論將會(huì)在以下三個(gè)層面上展開(kāi):
表示層 : 語(yǔ)言對(duì)象的語(yǔ)義表示,如詞、句子乃至長(zhǎng)文本的語(yǔ)義表示,也包含系統(tǒng)中和語(yǔ)義相關(guān)的中間狀態(tài)
運(yùn)算層 :對(duì)不同類(lèi)型和尺度的語(yǔ)言對(duì)象的操作和轉(zhuǎn)化,如生成、映射、轉(zhuǎn)換、分類(lèi)、預(yù)測(cè)、查詢(xún)、更新等
知識(shí)層 :包括語(yǔ)言學(xué)知識(shí)、領(lǐng)域知識(shí)和常識(shí)這類(lèi)的“長(zhǎng)期知識(shí)”,也包括在理解過(guò)程中對(duì)文本建立的“短期知識(shí)”。
總體來(lái)說(shuō),
神經(jīng)網(wǎng)絡(luò)用來(lái)處理連續(xù)的表示、操作以及知識(shí),具有模糊、可學(xué)習(xí)、不確定、靈活、無(wú)需設(shè)計(jì)、不可解釋的特性,不擅于處理圖結(jié)構(gòu)、變量、遞歸和指代等;
符號(hào)系統(tǒng)用來(lái)處理離散的、結(jié)構(gòu)性的表示、操作以及知識(shí)(包括圖結(jié)構(gòu)、變量、遞歸和指代等),具有清晰、精確、高執(zhí)行效率、可解釋的優(yōu)點(diǎn)。
從系統(tǒng)設(shè)計(jì)的角度,神經(jīng)網(wǎng)絡(luò)正因?yàn)闋奚宋⒂^和主動(dòng)意義上的可解釋性(如設(shè)定某個(gè)節(jié)點(diǎn)或者某個(gè)參數(shù)的含義),轉(zhuǎn)向架構(gòu)和機(jī)制上的設(shè)計(jì), 從而獲得了系統(tǒng)描述能力(expressiveness)上的靈活性。從數(shù)學(xué)的角度,神經(jīng)網(wǎng)絡(luò)可以認(rèn)為是用大量參數(shù)近似地描述了大量可能符號(hào)模式的分布,從而可以用基于梯度的方法(gradient-based methods) 來(lái)訓(xùn)練,但是也失去了對(duì)特定符號(hào)模式的清晰刻畫(huà)的能力。我們可以用圖1來(lái)形象地說(shuō)明神經(jīng)網(wǎng)絡(luò)和符號(hào)系統(tǒng)是如何去近似解決同一個(gè)真實(shí)的任務(wù)的。
圖1:神經(jīng)網(wǎng)絡(luò)和符號(hào)智能任務(wù)處理上的比較
我們用下表來(lái)總結(jié)神經(jīng)網(wǎng)絡(luò)和符號(hào)智能在表示、運(yùn)算和知識(shí)三個(gè)層面上的區(qū)別。
神經(jīng)符號(hào)主義的歷史
人工智能領(lǐng)域長(zhǎng)期有兩種思想占據(jù)主流地位:符號(hào)主義和聯(lián)結(jié)主義。符號(hào)主義使用基于規(guī)則的符號(hào)做推理,致力于用計(jì)算機(jī)的符號(hào)操作來(lái)模擬邏輯思維和認(rèn)知過(guò)程,實(shí)現(xiàn)人工智能。聯(lián)結(jié)主義強(qiáng)調(diào)智能起源于高度互聯(lián)的簡(jiǎn)單機(jī)制,其偏向于模仿腦結(jié)構(gòu)的研究,更側(cè)重神經(jīng)網(wǎng)絡(luò)中的聯(lián)結(jié)機(jī)制與學(xué)習(xí)算法。規(guī)則系統(tǒng)具有可解釋性強(qiáng)和精確度高的特點(diǎn),而神經(jīng)網(wǎng)絡(luò)靈活性高、泛化能力強(qiáng)、魯棒性好,因此人工智能之父馬文·明斯基(Marvin Minsky)總結(jié)到:“符號(hào)知識(shí)和聯(lián)結(jié)主義各有優(yōu)缺點(diǎn),我們需要一個(gè)系統(tǒng)能夠?qū)⑺鼈兊膬?yōu)點(diǎn)集成起來(lái)” [1]。自1980年,很多有遠(yuǎn)見(jiàn)的人工智能學(xué)者就試圖將神經(jīng)網(wǎng)絡(luò)和符號(hào)智能結(jié)合,這個(gè)包含了無(wú)數(shù)不同嘗試的方向被稱(chēng)為神經(jīng)符號(hào)主義(Neural-symbolism)。
一些先驅(qū)者對(duì)神經(jīng)符號(hào)主義進(jìn)行了初步的探索。早在1990年,Towell等人便提出了KBANN(基于知識(shí)的人工神經(jīng)網(wǎng)絡(luò))[2],采用已有的經(jīng)驗(yàn)知識(shí)去構(gòu)建人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和網(wǎng)絡(luò)中的連接權(quán)重。Garcez等人在1999年提出了CILP系統(tǒng)[3],他們將背景知識(shí)轉(zhuǎn)化為命題邏輯,并基于此構(gòu)建前向人工神經(jīng)網(wǎng)絡(luò),并從例子中歸納新的知識(shí)去更新已有的知識(shí)。Garcez等人在2001年提出了一種在訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中抽取邏輯知識(shí)的方法[4],可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)的可解釋性。Richardson等人在2006年對(duì)一階符號(hào)邏輯和概率圖模型結(jié)合的方式進(jìn)行了探索,提出了馬爾科夫邏輯網(wǎng)絡(luò)[5],該網(wǎng)絡(luò)是一個(gè)一階符號(hào)邏輯的知識(shí)庫(kù),其中每一個(gè)公式都有對(duì)應(yīng)的權(quán)重。受限于當(dāng)時(shí)機(jī)器學(xué)習(xí)技術(shù)和自然語(yǔ)言處理技術(shù)的制約,這些探索并不能充分利用神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),因而沒(méi)有取得更近一步的成功。
隨著層數(shù)更深、更多樣、表達(dá)能力更強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)的崛起,越來(lái)越多的學(xué)者加入了對(duì)神經(jīng)網(wǎng)絡(luò)和符號(hào)智能進(jìn)行結(jié)合的探索中。Jaeger提出了一種用“Conceptors”控制循環(huán)神經(jīng)網(wǎng)絡(luò)的方式[6],使得整個(gè)網(wǎng)絡(luò)具有幾何特性,并且可以和布爾邏輯進(jìn)行有效結(jié)合。Graves等人提出了神經(jīng)圖靈機(jī)(Neural Turing Machines)[7],Sukhbaatar等人提出了記憶網(wǎng)絡(luò)[8],他們都引入了記憶機(jī)制來(lái)解決對(duì)推理過(guò)程中間結(jié)果的存儲(chǔ)問(wèn)題。上述方法對(duì)神經(jīng)符號(hào)系統(tǒng)進(jìn)行了進(jìn)一步的探索,賦予了神經(jīng)網(wǎng)絡(luò)符號(hào)化的結(jié)構(gòu),對(duì)后續(xù)的研究有著重要的啟發(fā)意義。
近年來(lái),一些研究者致力于借助神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)符號(hào)推理。Neelakantan等人提出了“Neural Programmer”[9],基于自然語(yǔ)言理解實(shí)現(xiàn)數(shù)據(jù)庫(kù)查詢(xún)。Liang等人進(jìn)一步引入了符號(hào)化的記憶機(jī)制[10],幫助神經(jīng)網(wǎng)絡(luò)更好地完成復(fù)雜推理。Mou等人用神經(jīng)網(wǎng)絡(luò)和符號(hào)操作共同決策,提出了解決自然語(yǔ)言推理查詢(xún)的新途徑[11]。
還有一些工作希望能用符號(hào)邏輯幫助神經(jīng)網(wǎng)絡(luò)訓(xùn)練、學(xué)習(xí)和推理。Hu等人提出了Teacher-Student網(wǎng)絡(luò)[12],讓神經(jīng)網(wǎng)絡(luò)(Student)擬合符號(hào)規(guī)則(Teacher)的結(jié)果,使得神經(jīng)網(wǎng)絡(luò)在規(guī)則的指導(dǎo)下訓(xùn)練學(xué)習(xí)。Goyal等人采用先驗(yàn)知識(shí)改進(jìn)了字符級(jí)的循環(huán)神經(jīng)網(wǎng)絡(luò)用于自然語(yǔ)言生成問(wèn)題(NLG)[13]。Luo等人探索了在不同層面上,正則表達(dá)式規(guī)則和神經(jīng)網(wǎng)絡(luò)的結(jié)合手段,希望用正則表達(dá)式規(guī)則提供的豐富信息提升神經(jīng)網(wǎng)絡(luò)的表現(xiàn)[14]。這些方法本質(zhì)上是用符號(hào)知識(shí)給神經(jīng)網(wǎng)絡(luò)提供更多的信息,神經(jīng)網(wǎng)絡(luò)和符號(hào)智能的結(jié)合較為粗糙。同時(shí),這些將神經(jīng)網(wǎng)絡(luò)和符號(hào)智能結(jié)合的嘗試往往只是針對(duì)某個(gè)非常限定的任務(wù),而且往往只有空間上對(duì)某個(gè)層面的處理。
通向神經(jīng)系統(tǒng)和符號(hào)智能的融合
我們認(rèn)為神經(jīng)網(wǎng)絡(luò)和符號(hào)智能融合的理想形態(tài),應(yīng)該遵循以下的原則/方向:
原則-I:形成神經(jīng)和符號(hào)的連接
簡(jiǎn)言之,我們需要建立神經(jīng)和符號(hào)交流的界面、路徑和機(jī)制。二者的交流主要有兩種,1)互相控制和調(diào)用,2)互為輸入和輸出。對(duì)于1),一個(gè)例子是Neural Programmer [9], 它用連續(xù)信號(hào)來(lái)調(diào)用和驅(qū)動(dòng)符號(hào)運(yùn)算,而二者的界面就是符號(hào)預(yù)算的向量索引。 對(duì)于2),我們期望神經(jīng)運(yùn)算的輸出可以成為符號(hào)運(yùn)算的輸入,而同時(shí)符號(hào)運(yùn)算的輸出(在“嵌入”之后)也可以成為神經(jīng)運(yùn)算的輸入(如圖2),這形成了表示層-運(yùn)算層的神經(jīng)-符號(hào)閉環(huán)。舉例說(shuō)明,對(duì)于下面的例句
三郎仁真與澤旺、洛爾伊在大學(xué)旁邊的快捷酒店住了三個(gè)晚上
神經(jīng)網(wǎng)絡(luò)利用當(dāng)前的狀態(tài)(向量表示)預(yù)測(cè)“三郎仁真” 是人名,這個(gè)符號(hào)化的信息可以作為下面一條規(guī)則
RULE-9527: 在同一個(gè)list中的語(yǔ)言對(duì)象應(yīng)該有同樣的類(lèi)型
的輸入,從而預(yù)測(cè)“澤旺”也是人名。而這個(gè)來(lái)自符號(hào)運(yùn)算的輸出,在嵌入之后,會(huì)和其他的原始輸入一起,再次進(jìn)入神經(jīng)網(wǎng)絡(luò),而其進(jìn)入的形式可以是作為建議(從而需要神經(jīng)網(wǎng)絡(luò)的進(jìn)一步綜合判定),也可以是作為確定的結(jié)論。
圖2:神經(jīng)(連續(xù))信號(hào)和符號(hào)信號(hào)的閉環(huán)
原則-II:形成神經(jīng)和符號(hào)間的并列和對(duì)應(yīng)
神經(jīng)符號(hào)系統(tǒng)可以在表示、運(yùn)算、知識(shí)三個(gè)層面上,形成神經(jīng)和符號(hào)間的并列和對(duì)應(yīng)。這里,并列是指同時(shí)存在功能重合的神經(jīng)和符號(hào)兩種狀態(tài),這形成了某種程度的冗余,可以被系統(tǒng)擇優(yōu)使用或者同時(shí)使用(見(jiàn)原則-III);而對(duì)應(yīng)則意味著神經(jīng)和符號(hào)兩種狀態(tài)之間存在設(shè)計(jì)的信息交互,這種交互可以幫助一種形態(tài)轉(zhuǎn)換成另一種形態(tài),也可以同時(shí)促進(jìn)兩種形態(tài)的共同訓(xùn)練(co-training)(這里的co-training是從multi-view learning的角度來(lái)鼓勵(lì)兩個(gè)或更多通路的一致性,而非強(qiáng)調(diào)在其半監(jiān)督學(xué)習(xí)場(chǎng)景下的應(yīng)用)。 這三個(gè)層面上的并列和對(duì)應(yīng)可以有多種方式,下面僅舉兩例。我們?cè)?017年提出的神經(jīng)-符號(hào)雙通路的問(wèn)題解析模型 [11](見(jiàn)圖3-a):對(duì)一個(gè)問(wèn)題(如“北京奧運(yùn)會(huì)是哪一年舉行的?”),系統(tǒng)會(huì)有包含解析和運(yùn)算的神經(jīng)通路,也會(huì)有一個(gè)近乎對(duì)稱(chēng)的符號(hào)通路。兩條通路殊途同歸,同時(shí)會(huì)有密集的信息交換。神經(jīng)通路可以高效地利用后向傳播算法學(xué)習(xí),而符號(hào)通路則通過(guò)符號(hào)化的總結(jié)而具有高執(zhí)行效率和很好的泛化性能。通過(guò)在訓(xùn)練中鼓勵(lì)兩條通路的一致性,我們可以獲得比單一通路更好的學(xué)習(xí)效率、執(zhí)行效率以及泛化性能。我們最新的一項(xiàng)技術(shù)(見(jiàn)下文中的Nerual Rule Engine),則可以部分地完成知識(shí)層上的轉(zhuǎn)換(見(jiàn)圖3-b),從而利用神經(jīng)網(wǎng)絡(luò)天然的泛化能力克服規(guī)則系統(tǒng)的脆弱性。圖3-b也描述了上述轉(zhuǎn)換的逆過(guò)程,即神經(jīng)網(wǎng)絡(luò)中的參數(shù)知識(shí)被總結(jié)成為規(guī)則,這個(gè)過(guò)程通常被稱(chēng)為規(guī)則抽?。╮ule extraction)。
圖3:神經(jīng)和符號(hào)間的并列和對(duì)應(yīng)
原則-III:完備的中央調(diào)控機(jī)制去選擇、控制和規(guī)劃
為了有效地訓(xùn)練和執(zhí)行,神經(jīng)符號(hào)系統(tǒng)需要一個(gè)中央控制系統(tǒng)在表示、運(yùn)算、知識(shí)三個(gè)層面上做選擇、控制和規(guī)劃(見(jiàn)圖4)。如果存在表示、運(yùn)算甚至知識(shí)層面上的并列(見(jiàn)原則-II),那么在執(zhí)行階段,中控系統(tǒng)會(huì)在某個(gè)特定時(shí)刻根據(jù)情況在這三個(gè)層面上選擇使用神經(jīng)、符號(hào)還是它們的組合。比如說(shuō),在閱讀和理解某個(gè)句子的過(guò)程中,中控系統(tǒng)在某時(shí)刻決定探測(cè)句子余下的部分是否含有并列結(jié)構(gòu)。這個(gè)探測(cè)的決定本身是符號(hào)性的,但是這個(gè)探測(cè)的行為本身可以是由一個(gè)神經(jīng)網(wǎng)絡(luò)模塊來(lái)完成的。同樣,分管訓(xùn)練的更長(zhǎng)期的中控系統(tǒng)會(huì)規(guī)劃神經(jīng)通路和符號(hào)通路的交流的具體節(jié)奏,控制轉(zhuǎn)換和促進(jìn)的機(jī)制等。接著用上面的例子,這個(gè)探測(cè)并列結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模塊可能原先來(lái)源于一個(gè)簡(jiǎn)單的規(guī)則,但是在使用過(guò)程中不斷地吸收來(lái)自任務(wù)的監(jiān)督信號(hào),最終被中控系統(tǒng)確定取代對(duì)應(yīng)的規(guī)則。很顯然,原則-III的意義來(lái)源于原則-I和II帶來(lái)的神經(jīng)和符號(hào)復(fù)雜交融的可能,而原則-III的實(shí)現(xiàn)也需要以原則-I和II為基礎(chǔ)。
圖4:對(duì)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的調(diào)控
這三個(gè)方向上的融合,既相對(duì)獨(dú)立,又有很強(qiáng)的關(guān)聯(lián),同時(shí)可以以多種方式嵌套使用,給出了無(wú)限的架構(gòu)和機(jī)制設(shè)計(jì)上的可能性。可以認(rèn)為,一個(gè)相對(duì)“完備”的神經(jīng)符號(hào)系統(tǒng)應(yīng)該綜合了這三個(gè)方向,從而可以將神經(jīng)系統(tǒng)和符號(hào)系統(tǒng)各自的優(yōu)點(diǎn)做深層次融合,使得文本理解達(dá)到前所未有的深度。雖然在特定任務(wù)的神經(jīng)符號(hào)系統(tǒng)上,我們往往只會(huì)實(shí)現(xiàn)神經(jīng)符號(hào)系統(tǒng)的特定方面,這些可以從深度好奇最近的工作為例來(lái)說(shuō)明。
深度好奇的工作
深度好奇正是遵循以上的融合神經(jīng)網(wǎng)絡(luò)和符號(hào)智能的原則,針對(duì)不同類(lèi)型的自然語(yǔ)言理解任務(wù),設(shè)計(jì)了一系列的模型。我們介紹下面三個(gè)工作,1)神經(jīng)規(guī)則引擎,2)變焦神經(jīng)網(wǎng)絡(luò),和 3)神經(jīng)實(shí)體推理, 來(lái)作為其中的代表。
神經(jīng)規(guī)則引擎(Neural Rule Engine)
規(guī)則作為人類(lèi)知識(shí)的具體體現(xiàn),是一種簡(jiǎn)單但是極為可靠的快速構(gòu)建工業(yè)應(yīng)用的手段,也是符號(hào)性知識(shí)的通用形式。規(guī)則雖然極其精確,但是其僵硬脆弱的特點(diǎn)又經(jīng)常被詬病,比如規(guī)則可以查找“騎自行車(chē)上班”,但是語(yǔ)義相似的“騎小黃車(chē)上班”卻無(wú)法匹配,傳統(tǒng)的規(guī)則需要大量擴(kuò)充才能涵蓋這些在語(yǔ)義上相近的表達(dá)。我們提出的神經(jīng)規(guī)則引擎(NRE),將符號(hào)性的規(guī)則知識(shí)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的知識(shí)形式,并輔以對(duì)應(yīng)的運(yùn)算。NRE吸收了神經(jīng)網(wǎng)絡(luò)靈活性高、泛化能力強(qiáng)、魯棒性好的優(yōu)勢(shì),同時(shí)也維持了規(guī)則的精確性和可解釋性。它可以從規(guī)則中學(xué)習(xí)知識(shí),同時(shí)又通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)泛化知識(shí),與人類(lèi)學(xué)習(xí)知識(shí)的方式有異曲同工之妙。神經(jīng)規(guī)則引擎由基礎(chǔ)的操作和解析器來(lái)表示規(guī)則。操作和解析器根據(jù)需求既可以選用神經(jīng)網(wǎng)絡(luò)也采取符號(hào)算法來(lái)實(shí)現(xiàn)。具體來(lái)說(shuō),神經(jīng)規(guī)則引擎先對(duì)規(guī)則用解析器進(jìn)行解析,生成層級(jí)操作序列,之后依照順序來(lái)組裝模塊,最后將組裝好的規(guī)則應(yīng)用于具體的事例,判斷是否符合規(guī)則(圖5給出了一個(gè)簡(jiǎn)略的示意圖)。實(shí)驗(yàn)表明,借助神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),神經(jīng)規(guī)則引擎對(duì)符號(hào)知識(shí)進(jìn)行了學(xué)習(xí)和擴(kuò)展,可以大幅提升規(guī)則的召回率,同時(shí)還能維持較高的精確率使規(guī)則本身的特性得以保留。神經(jīng)規(guī)則引擎不僅是一種新的神經(jīng)符號(hào)學(xué)習(xí)范式,同時(shí)也為現(xiàn)有的工業(yè)應(yīng)用帶來(lái)了一種高效的改進(jìn),它可以被用來(lái)對(duì)已有的規(guī)則系統(tǒng)進(jìn)行升級(jí),或者在訓(xùn)練數(shù)據(jù)不大的情況下快速開(kāi)發(fā)出神經(jīng)規(guī)則系統(tǒng) (論文見(jiàn) arxiv.org/abs/1808.10326)。
圖5:神經(jīng)規(guī)則引擎的示意圖
變焦神經(jīng)網(wǎng)絡(luò)(Zooming-Net)
段落、列表等文本結(jié)構(gòu)蘊(yùn)涵著信息輸出者的表達(dá)策略,對(duì)于準(zhǔn)確抓取、理解文本內(nèi)容有著重要的意義。這種文本結(jié)構(gòu)有符號(hào)化的骨架,但是又需要和局部的語(yǔ)義有深度的耦合。我們提出了變焦神經(jīng)網(wǎng)絡(luò)(Zooming-Net)來(lái)完成這種偏符號(hào)性的文本結(jié)構(gòu)和神經(jīng)性的局部語(yǔ)義表示的結(jié)合。Zooming-Net可以利用Policy-Net靈活地選擇在特定文本粒度(字、句、段)上執(zhí)行讀取、更新、跳轉(zhuǎn)、預(yù)測(cè)等一系列操作,這種獨(dú)特的變焦處理方式高度類(lèi)似人類(lèi)閱讀過(guò)程,利用文本結(jié)構(gòu),其在信息稀疏部分進(jìn)行泛讀,確保不引入過(guò)多噪聲,在信息密集部分進(jìn)行精讀,確保有用信息不被丟失。我們引入了符號(hào)化推理模塊對(duì)模型的輸出加以解釋?zhuān)⑦M(jìn)行定向的干預(yù)。變焦神經(jīng)網(wǎng)絡(luò)由層次化編碼器、變焦控制器和符號(hào)化推理模塊三個(gè)部分完成對(duì)文本的處理并以序列標(biāo)注的形式找出文本中的關(guān)鍵片段(圖6給出了一個(gè)簡(jiǎn)略的示意圖)。具體地說(shuō),在每個(gè)時(shí)刻,層次化編碼器配合變焦控制器有策略地選擇建立層次化特征,讀取特定層級(jí)的信息,結(jié)合符號(hào)化推理模塊給出的臨時(shí)性離散信息預(yù)測(cè)出一定長(zhǎng)度的標(biāo)簽序列。在讀取整篇文本之后,將各時(shí)刻輸出的標(biāo)簽序列進(jìn)行組裝,并取出對(duì)應(yīng)的關(guān)鍵信息片段。實(shí)驗(yàn)表明,借助句段結(jié)構(gòu)信息,變焦神經(jīng)網(wǎng)絡(luò)很好地結(jié)合了泛讀與精讀過(guò)程,其可以更好地對(duì)長(zhǎng)時(shí)依賴(lài)特征進(jìn)行建模,并引入大跨度動(dòng)作提高效率,在關(guān)鍵信息的抽取任務(wù)上,f1值較經(jīng)典序列標(biāo)注模型(biLSTM+CRF)有10%以上的提升,預(yù)測(cè)行為頻次減少50%以上。變焦神經(jīng)網(wǎng)絡(luò)非常適合應(yīng)用在各類(lèi)長(zhǎng)文本處理任務(wù)當(dāng)中,其使用的編解碼方式也可結(jié)合其他技術(shù)推廣到各類(lèi)自然語(yǔ)言處理任務(wù)過(guò)程中 (論文見(jiàn) arxiv.org/abs/1810.02114 )。
圖6:變焦神經(jīng)網(wǎng)絡(luò)的基本原理
神經(jīng)實(shí)體推理(Neural Entity Reasoner)
命名實(shí)體識(shí)別(Named Entity Recognition)被認(rèn)為文本理解的基礎(chǔ)和底層任務(wù),因?yàn)樗穆毮芫褪前l(fā)現(xiàn)和標(biāo)識(shí)文本中的人名、地名等。傳統(tǒng)的NER方法依賴(lài)局部和底層的語(yǔ)言特征,但是當(dāng)出現(xiàn)有歧義的說(shuō)法或者少見(jiàn)的人名時(shí),這類(lèi)方法往往會(huì)遇到困難。而人在這種情況下,往往可以通過(guò)縱覽全文,打通和融合局部的知識(shí),來(lái)擺脫這種困境。我們正是受到人的思維模型的啟發(fā),為NER這個(gè)看似低級(jí)的任務(wù)引入了高級(jí)的“推理”機(jī)制,將符號(hào)化的命名實(shí)體信息“取之于網(wǎng)絡(luò),用之于網(wǎng)絡(luò)”,從而可以在深度學(xué)習(xí)的框架內(nèi)融合同一文本中的命名實(shí)體的決策。命名實(shí)體神經(jīng)推理機(jī)(NE-Reasoner)整體上是一個(gè)多層的架構(gòu),每一層都獨(dú)立完成一次NER(圖7給出了一個(gè)簡(jiǎn)略的示意圖)。每層的NER結(jié)果,會(huì)通過(guò)一個(gè)符號(hào)化的“緩存”存儲(chǔ)起來(lái),作為下一層NER的參考:這種參考是通過(guò)一個(gè)交互式的池化神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),本質(zhì)上是一個(gè)基于多個(gè)事實(shí)的推理模型。由于這樣的設(shè)計(jì),在做每個(gè)局部的決策時(shí),模型都可以“看見(jiàn)”并參考別處相關(guān)決策,從而做出更加明智的決定。實(shí)驗(yàn)表明,通過(guò)在神經(jīng)網(wǎng)絡(luò)的推理過(guò)程中,引入符號(hào)化的緩存記憶,以及在緩存基礎(chǔ)上的多事實(shí)全局推理,可以顯著提高命名實(shí)體識(shí)別的準(zhǔn)確率,尤其是在傳統(tǒng)方法容易犯錯(cuò)的歧義和少見(jiàn)人名上有更好的表現(xiàn)。命名實(shí)體神經(jīng)推理機(jī)作為神經(jīng)符號(hào)推理機(jī)在NER任務(wù)上應(yīng)用的一個(gè)實(shí)例,不僅打開(kāi)了之前神經(jīng)網(wǎng)絡(luò)推理決策的黑箱,使得推理過(guò)程中的關(guān)鍵步驟對(duì)人類(lèi)可見(jiàn)和可理解,而且給予了人工進(jìn)一步干預(yù)推理過(guò)程的可能性及有效的接口 (論文見(jiàn) arxiv.org/abs/1810.00347)。
圖7:神經(jīng)實(shí)體推理(NE-Reasoner)工作原理圖
不同于之前介紹的三項(xiàng)相對(duì)專(zhuān)門(mén)的技術(shù),面向?qū)ο蟮纳窠?jīng)規(guī)劃(Object-oriented Neural Programing, OONP)是一個(gè)用于復(fù)雜語(yǔ)言對(duì)象理解的新框架。作為神經(jīng)符號(hào)系統(tǒng)的實(shí)例,OONP不但有大量神經(jīng)符號(hào)主義的具體實(shí)現(xiàn),而且也為神經(jīng)網(wǎng)絡(luò)和符號(hào)的更多和更充分的融合留下充分的空間。
OONP借用面向?qū)ο缶幊蹋∣OP)的思想,利用解析出來(lái)的實(shí)體組成對(duì)象和對(duì)象間關(guān)系(如圖8),構(gòu)成結(jié)構(gòu)清晰的本體圖。每個(gè)對(duì)象(object)都是一個(gè)類(lèi)(class)的實(shí)例化,類(lèi)的概念規(guī)定了其具有的內(nèi)部屬性、外部關(guān)系和可執(zhí)行的操作,以及與其他對(duì)象的關(guān)系類(lèi)型。
圖8:OONP的解析示意圖,左側(cè)的每一個(gè)小框代表了一個(gè)對(duì)象(object),框的顏色標(biāo)識(shí)了類(lèi)(class)
如圖9所示,OONP由三部分組成,分別是主控模塊閱讀器(Reader)、表征文檔的行間記憶(Inline Memory)模塊、以及總結(jié)對(duì)之前文本的理解的攜帶記憶(Carry-on Memory)模塊。而攜帶記憶(Carry-on Memory)模塊又可分為表征圖結(jié)構(gòu)的對(duì)象記憶(Object Memory)、存儲(chǔ)連續(xù)狀態(tài)的矩陣記憶 (Matrix Memory) 和記錄離散動(dòng)作的動(dòng)作歷史 (Action History) 三部分。
圖9:OONP的整體架構(gòu)
在解析文本時(shí),OONP模仿了人理解文本時(shí)一邊閱讀一邊理解的方式。OONP框架將解析過(guò)程轉(zhuǎn)化為決策序列:OONP閱讀器按照文本順序讀文檔,同時(shí)不斷豐富本體圖結(jié)構(gòu)來(lái)增進(jìn)對(duì)文檔的理解,該圖結(jié)構(gòu)被決策過(guò)程的操作序列創(chuàng)建和更新,并在解析的結(jié)尾作為最終的文本語(yǔ)義表示。對(duì)于某個(gè)待解析的文檔,OONP首先將預(yù)處理之后的文檔放入行間記憶模塊,閱讀器順序讀取行間記憶中的符號(hào)表示和連續(xù)表示,結(jié)合攜帶記憶,產(chǎn)生各種操作來(lái)增加和豐富本體圖,更新攜帶記憶模塊。這些操作包含可微分操作(作用于對(duì)象記憶的連續(xù)部分和矩陣記憶)和離散操作(作用于對(duì)象記憶和行間記憶的符號(hào)部分)。這些連續(xù)和離散操作互相依賴(lài),構(gòu)成了彼此的輸入,共同形成了圖10中復(fù)雜而靈活的信息流。
圖10:閱讀器(Reader)的架構(gòu)細(xì)節(jié)以及信息流
在OONP框架內(nèi),連續(xù)和離散的表示、運(yùn)算、知識(shí)相互緊密結(jié)合,形成信息閉環(huán)。這使得OONP可以靈活地將各種先驗(yàn)知識(shí)用不同形式加入到行間記憶和策略網(wǎng)絡(luò)。具體來(lái)說(shuō):
整體來(lái)說(shuō),OONP解析的決策過(guò)程本身就是從神經(jīng)網(wǎng)絡(luò)到離散結(jié)構(gòu)(本體圖)映射的過(guò)程,而這個(gè)離散結(jié)構(gòu)又成為神經(jīng)網(wǎng)絡(luò)控制的決策過(guò)程的輸入,從而形成了大的神經(jīng)-符號(hào)的信息閉環(huán)。而在OONP的具體模塊上,這種閉環(huán)還大量存在;
在行間記憶和對(duì)象記憶里,存在大量離散和連續(xù)并列的表示,比如說(shuō),對(duì)象記憶中的圖狀離散結(jié)構(gòu)上會(huì)附有不同類(lèi)型的連續(xù)向量表示。同時(shí)在OONP的運(yùn)算層,每個(gè)動(dòng)作的決定都需要融合來(lái)自規(guī)則引擎以及神經(jīng)網(wǎng)絡(luò)的輸出。比如會(huì)有獨(dú)立的規(guī)則引擎來(lái)分析動(dòng)作歷史,發(fā)掘大范圍的動(dòng)作的模式,從而給出下一步的決策建議,而這些建議會(huì)和其他來(lái)自神經(jīng)運(yùn)算的結(jié)果一起匯入策略網(wǎng)絡(luò)的輸入;
在OONP的框架內(nèi),允許符號(hào)知識(shí)(如規(guī)則)轉(zhuǎn)換成為功能接近的神經(jīng)模塊,而這些神經(jīng)模塊可以作為OONP組件進(jìn)行聯(lián)合訓(xùn)練。
以神經(jīng)符號(hào)系統(tǒng)為核心技術(shù)思想,深度好奇構(gòu)建了以O(shè)ONP為核心技術(shù)框架的包括多個(gè)技術(shù)模塊的自然語(yǔ)言理解技術(shù)平臺(tái)。以此為基礎(chǔ),我們?cè)O(shè)計(jì)制造了公安案情結(jié)構(gòu)化、智能視頻審核、法律文書(shū)解析、語(yǔ)音視頻調(diào)度等一系列產(chǎn)品(見(jiàn)圖11)。
圖11:深度好奇的技術(shù)架構(gòu)
這里我們以公安案情結(jié)構(gòu)化和智能視頻審核為例:
公安案情結(jié)構(gòu)化:這個(gè)系統(tǒng)對(duì)公安偵破過(guò)程中的文本信息進(jìn)行解析,構(gòu)建關(guān)于案情的人-事-物-時(shí)-地的知識(shí)圖譜(見(jiàn)圖12),讓機(jī)器“懂”案情,從而為刑偵人員提供串并案、犯罪預(yù)測(cè)、信息比對(duì)及融合等決策輔助。公安案情結(jié)構(gòu)化是OONP的一個(gè)成功應(yīng)用,充分發(fā)揮了神經(jīng)符號(hào)系統(tǒng)在解析復(fù)雜文本上的優(yōu)勢(shì)。公安案情結(jié)構(gòu)化任務(wù)的復(fù)雜性體現(xiàn)在多個(gè)方面,其相關(guān)文本形式多樣,敘述邏輯繁復(fù)曲折,而且最終的知識(shí)表示是包含多事件、多實(shí)體、多標(biāo)簽以及時(shí)空關(guān)系的龐雜圖譜。為了將文本中特定的敘述習(xí)慣等知識(shí)作為規(guī)則嵌入OONP并獲得泛化能力,我們利用了Neural Rule Engine來(lái)處理理解過(guò)程中的特定子任務(wù),取得了較小數(shù)據(jù)量下的顯著效果。
圖12:公安案情結(jié)構(gòu)化示意圖
智能視頻審核:該場(chǎng)景是對(duì)借款人進(jìn)行視頻面試,從而基于交互過(guò)程進(jìn)行信息審核和欺詐檢測(cè)(見(jiàn)圖13)。深度好奇的智能視頻審核系統(tǒng)依靠對(duì)語(yǔ)音對(duì)話(huà)的理解來(lái)構(gòu)建對(duì)話(huà)系統(tǒng),在溝通過(guò)程中根據(jù)用戶(hù)信息判定高欺詐風(fēng)險(xiǎn)的信息點(diǎn),并進(jìn)行主動(dòng)的問(wèn)詢(xún)。例如,當(dāng)借款人提供的職業(yè)信息是“養(yǎng)生會(huì)所的工作人員”時(shí),該系統(tǒng)就會(huì)追問(wèn)“你們公司的客流量有多大” 、“你們公司的主要設(shè)備是什么” 這類(lèi)的問(wèn)題。完整的對(duì)話(huà)過(guò)程將會(huì)被用來(lái)評(píng)估及判定借款人騙貸和逃貸等風(fēng)險(xiǎn)。
圖13:智能視頻審核示意圖
自然語(yǔ)言理解作為人工智能的核心任務(wù),經(jīng)歷了從符號(hào)智能到統(tǒng)計(jì)學(xué)習(xí)、再到深度學(xué)習(xí)的發(fā)展和演化。深度學(xué)習(xí)雖然風(fēng)頭正勁,卻也暴露出在解決語(yǔ)言理解問(wèn)題中的諸多缺陷。而今我們相信,深度學(xué)習(xí)和符號(hào)智能的結(jié)合將是下一代自然語(yǔ)言理解的新范式,也是解決自然語(yǔ)言理解這個(gè)困難任務(wù)的唯一路徑。神經(jīng)符號(hào)系統(tǒng)是深刻而實(shí)用的技術(shù)方向,深度好奇也在這個(gè)方向上將相應(yīng)技術(shù)做了成功的產(chǎn)業(yè)應(yīng)用。相信在學(xué)界和產(chǎn)業(yè)界的共同努力下,我們終究可以讓機(jī)器善解人意。
[1] Minsky, Marvin L. "Logical versus analogical or symbolic versus connectionist or neat versus scruffy." AI magazine 12.2 (1991): 34.
[2] Towell, Geoffrey G., Jude W. Shavlik, and Michiel O. Noordewier. "Refinement of approximate domain theories by knowledge-based neural networks." Proceedings of the eighth National conference on Artificial intelligence. Vol. 861866. 1990.
[3] Garcez, Artur S. Avila, and Gerson Zaverucha. "The connectionist inductive learning and logic programming system." Applied Intelligence 11.1 (1999): 59-77.
[4] Garcez, AS d'Avila, Krysia Broda, and Dov M. Gabbay. "Symbolic knowledge extraction from trained neural networks: A sound approach." Artificial Intelligence 125.1-2 (2001): 155-207.
[5] Richardson, Matthew, and Pedro Domingos. "Markov logic networks." Machine learning 62.1-2 (2006): 107-136.
[6] Jaeger, Herbert. "Controlling recurrent neural networks by conceptors." arXiv preprint arXiv:1403.3369 (2014).
[7] Graves, Alex, Greg Wayne, and Ivo Danihelka. "Neural turing machines." arXiv preprint arXiv:1410.5401 (2014).
[8] Sukhbaatar, Sainbayar, Jason Weston, and Rob Fergus. "End-to-end memory networks." Advances in neural information processing systems. 2015.
[9] Neelakantan, Arvind, et al. "Learning a natural language interface with neural programmer." arXiv preprint arXiv:1611.08945 (2016).
[10] Liang, Chen, et al. "Neural symbolic machines: Learning semantic parsers on freebase with weak supervision." arXiv preprint arXiv:1611.00020 (2016).
[11] Mou, Lili, et al. "Coupling distributed and symbolic execution for natural language queries." arXiv preprint arXiv:1612.02741 (2016).
[12] Hu, Zhiting, et al. "Harnessing Deep Neural Networks with Logic Rules." Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Vol. 1. 2016.
[13] Goyal, Raghav, Marc Dymetman, and Eric Gaussier. "Natural language generation through character-based rnns with finite-state prior knowledge." Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers. 2016.
[14] Luo, Bingfeng, et al. "Marrying up Regular Expressions with Neural Networks: A Case Study for Spoken Language Understanding." arXiv preprint arXiv:1805.05588 (2018).
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。