丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給恒亮
發(fā)送

1

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡(luò)算法為什么不適合自然語(yǔ)言處理

本文作者: 恒亮 2017-01-11 10:05
導(dǎo)語(yǔ):神經(jīng)網(wǎng)絡(luò)算法真的適合于處理自然語(yǔ)言問(wèn)題么?業(yè)內(nèi)存在著不同的看法。

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡(luò)算法為什么不適合自然語(yǔ)言處理

谷歌在2016年發(fā)布了全新的神經(jīng)機(jī)器翻譯系統(tǒng)(GNMT),并表示由于神經(jīng)網(wǎng)絡(luò)算法的介入,該系統(tǒng)相比傳統(tǒng)機(jī)器翻譯降低了80%的錯(cuò)誤率,已接近人工翻譯的水平。

但對(duì)于谷歌的這項(xiàng)發(fā)布,以及神經(jīng)網(wǎng)絡(luò)(或者深度學(xué)習(xí))算法是否真的適合自然語(yǔ)言處理,業(yè)內(nèi)存在著不同的看法。

日前美國(guó)AI公司exClone創(chuàng)始人,超導(dǎo)材料公司Epoch Wires主席Riza C. Berkan在博客中發(fā)布了一篇文章,圍繞這一問(wèn)題表達(dá)了自己的看法。他認(rèn)為谷歌GNMT系統(tǒng)僅僅是一個(gè)噱頭,而且由于自然語(yǔ)言本身并的特性,根本不適合用現(xiàn)有的神經(jīng)網(wǎng)絡(luò)算法來(lái)處理。

  自然語(yǔ)言并非連續(xù)過(guò)程

作者認(rèn)為,神經(jīng)網(wǎng)絡(luò)算法本身的技術(shù)特點(diǎn)決定了它更適合于處理連續(xù)型變量,或者連續(xù)型過(guò)程,即自變量和因變量之間存在一種連續(xù)的變化關(guān)系(如氣溫變化),而非跳躍式的變化(如一個(gè)人的銀行余額變化)。但自然語(yǔ)言,單純從字詞組成的角度來(lái)看,卻并非一種連續(xù)型的過(guò)程,自然語(yǔ)言是由語(yǔ)法規(guī)則、邏輯思考和漸進(jìn)式的決策邊界等各種非連續(xù)過(guò)程產(chǎn)生的一種非連續(xù)的變化。

舉例來(lái)說(shuō),“Mary愛(ài)她的貓(Mary loves her cats)”這句話(huà),單從字詞組成的角度看就是非連續(xù)的。因?yàn)镸ary和貓之間并不是一種邏輯上連續(xù)的關(guān)系,而是一種隨機(jī)的偶發(fā)性關(guān)系(Mary可以愛(ài)任何東西,并不一定是貓)。如果直接用這種偶發(fā)性的變化關(guān)系來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng),那么系統(tǒng)會(huì)抓不到訓(xùn)練的重點(diǎn),也就得不到預(yù)期的輸出效果。

但如果換一種方式,將上面那句話(huà)重新組織:{專(zhuān)有名詞-Mary:人類(lèi)女性}{動(dòng)詞-愛(ài):情感寄托}{名詞-貓:寵物},那么就能得到一種相對(duì)更連續(xù)的數(shù)據(jù)。因?yàn)閺恼J(rèn)知上說(shuō)“人類(lèi)女性對(duì)寵物具有情感寄托”比“Mary愛(ài)貓”具有更好的一致性。而如果以這樣的數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)系統(tǒng)展開(kāi)訓(xùn)練,那么就能得到一個(gè)理想的效果。

需要指出的是,后一種組織方式并非簡(jiǎn)單的詞性解析,而是一種邏輯性的認(rèn)知識(shí)別,要做到這一點(diǎn)需要大量的人力和物力投入,目前還沒(méi)有可靠的機(jī)器替代人工的方法,這也解釋了在過(guò)去30年中,為什么基于字詞組成的角度訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)并未取得重大突破的原因。

  堅(jiān)持用神經(jīng)網(wǎng)絡(luò)處理會(huì)怎樣?

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡(luò)算法為什么不適合自然語(yǔ)言處理

如圖所示為一個(gè)典型的多層神經(jīng)網(wǎng)絡(luò)模型,假設(shè)這里的輸入和輸出都是基于自然語(yǔ)言的文本數(shù)據(jù)(例如機(jī)器翻譯或者機(jī)器聊天等場(chǎng)景),然后利用反向傳播算法等常見(jiàn)的神經(jīng)網(wǎng)絡(luò)算法對(duì)該系統(tǒng)進(jìn)行訓(xùn)練,或許最終這個(gè)系統(tǒng)也能收斂,但其處理問(wèn)題的效果究竟如何,作者認(rèn)為并不能保證。

假如以上文提到的第一種數(shù)據(jù)組織方式對(duì)該系統(tǒng)進(jìn)行訓(xùn)練,即基于字詞組成的分析方法,那么由于數(shù)據(jù)的非連續(xù)性,最終只能得到一種基于數(shù)理統(tǒng)計(jì)的詞匯搭配,這時(shí)的神經(jīng)網(wǎng)絡(luò)并未“理解”文本的真正含義。也就是說(shuō):最終只得到了一種詞匯和詞匯間的簡(jiǎn)單映射,而且這種映射并不會(huì)隨著語(yǔ)義的變化而變化。

即使對(duì)數(shù)據(jù)做矢量化的處理,或者采用其他一些神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)架構(gòu),也不會(huì)改變這一現(xiàn)象。因?yàn)閺母旧险f(shuō),數(shù)據(jù)本身的不連續(xù)性,會(huì)在訓(xùn)練中強(qiáng)制神經(jīng)網(wǎng)絡(luò)系統(tǒng)為每一種決策邊界(針對(duì)每一種非連續(xù)狀態(tài))分配存儲(chǔ)單元(就像人類(lèi)神經(jīng)網(wǎng)絡(luò)系統(tǒng)中的神經(jīng)元)。就好像在數(shù)據(jù)庫(kù)處理中為每個(gè)數(shù)據(jù)元素單獨(dú)分配一個(gè)存儲(chǔ)空間那樣,這種運(yùn)行方式本身就悖離了神經(jīng)網(wǎng)絡(luò)系統(tǒng)的最大優(yōu)勢(shì)之一:數(shù)據(jù)之間高度的相關(guān)性。

采用這種數(shù)據(jù)的訓(xùn)練結(jié)果就是:當(dāng)輸入與訓(xùn)練數(shù)據(jù)高度相似的樣本時(shí),或許可以得到一些可接受的結(jié)果??梢坏┹斎霕颖九c訓(xùn)練數(shù)據(jù)差異性變大,那么很可能得到一堆亂碼,因?yàn)樵诳晒┓治龊屠玫牟贿B續(xù)數(shù)據(jù)中并沒(méi)有找到之前訓(xùn)練中得到的映射關(guān)系。換句話(huà)說(shuō),系統(tǒng)輸出的有效性將非常局限于輸入樣本與訓(xùn)練數(shù)據(jù)集的相似性。

相反,如果使用連續(xù)型數(shù)據(jù)進(jìn)行訓(xùn)練,即上文提到的第二種數(shù)據(jù)組織方式,基于認(rèn)知概念的分析方法,神經(jīng)網(wǎng)絡(luò)系統(tǒng)就會(huì)對(duì)訓(xùn)練中得到的邏輯聯(lián)系保持強(qiáng)大的復(fù)現(xiàn)能力和靈活性,就好像人類(lèi)的大腦一樣,在保證一定容錯(cuò)能力的同時(shí),可以在每個(gè)存儲(chǔ)單元之間建立普遍的關(guān)聯(lián)性。這樣的神經(jīng)網(wǎng)絡(luò)系統(tǒng)實(shí)際上就具備了一定的邏輯推斷能力,這也是神經(jīng)網(wǎng)絡(luò)系統(tǒng)被廣泛應(yīng)用于工程應(yīng)用領(lǐng)域的原因。

一些工程師可能會(huì)嘗試用矢量化和降維等方法預(yù)處理,將原始數(shù)據(jù)強(qiáng)制轉(zhuǎn)換成連續(xù)性的數(shù)據(jù)。但這可能會(huì)帶來(lái)一個(gè)不可忽視的副作用:信息量的丟失。一定程度的信息量丟失在特征檢測(cè)和歸類(lèi)等領(lǐng)域或許是可以接受的(例如圖像處理),但在語(yǔ)言領(lǐng)域卻完全不同。因?yàn)椴徽撌钦谋具€是一句話(huà),語(yǔ)言并非一種簡(jiǎn)單的詞匯量的數(shù)理統(tǒng)計(jì),而是一種基于概念和認(rèn)知的副產(chǎn)品。數(shù)理統(tǒng)計(jì)或許有助于自然語(yǔ)言的處理,例如解決語(yǔ)言處理中的“肥尾”現(xiàn)象,或者借助矢量化在訓(xùn)練數(shù)據(jù)之外助力神經(jīng)網(wǎng)絡(luò)算法,但絕不是最終的解決方案。這里需要澄清的一點(diǎn)是:無(wú)論神經(jīng)網(wǎng)絡(luò)還是數(shù)理統(tǒng)計(jì),基于字詞組成的分析方法都無(wú)法覆蓋自然語(yǔ)言處理中的所有問(wèn)題,有些場(chǎng)景必須要借助基于認(rèn)知概念的分析方法。

  谷歌翻譯是噱頭么?

這里作者順便提及了谷歌最新發(fā)布的GNMT系統(tǒng),作者表示:由于我們無(wú)法獲取谷歌訓(xùn)練神經(jīng)網(wǎng)絡(luò)系統(tǒng)的原始數(shù)據(jù),因此也就無(wú)法判斷谷歌給出的樣本翻譯語(yǔ)句是否與原始訓(xùn)練數(shù)據(jù)緊密相關(guān),那么也就無(wú)從判斷其超高的翻譯準(zhǔn)確率是否具有參考價(jià)值了。

另一方面,谷歌也并未公布GNMT系統(tǒng)的具體訓(xùn)練參數(shù),包括神經(jīng)網(wǎng)絡(luò)模型的收斂程度,是否只能對(duì)訓(xùn)練數(shù)據(jù)集的一部分起作用,如果翻譯出錯(cuò)了,錯(cuò)誤原因是什么,以及錯(cuò)誤出現(xiàn)的頻率等等。

從這些細(xì)節(jié)我們可以確定:谷歌發(fā)布GNMT系統(tǒng)并非為了顛覆學(xué)術(shù)界,否則如果不是出于技術(shù)細(xì)節(jié)的安全性考慮的話(huà),谷歌一定會(huì)公布神經(jīng)網(wǎng)絡(luò)內(nèi)部的各項(xiàng)訓(xùn)練參數(shù)。

這一點(diǎn)在谷歌的公報(bào)中也能得到驗(yàn)證,下面是公報(bào)原文:Rekimoto在Twitter上向他的十多萬(wàn)粉絲推送了這項(xiàng)發(fā)現(xiàn),在接下來(lái)的幾個(gè)小時(shí),有成千上萬(wàn)的用戶(hù)在Twitter上廣播他們使用谷歌機(jī)器翻譯的測(cè)試結(jié)果,其中有些翻譯是正確的,有些則為了搞笑故意拼錯(cuò)了單詞。

  數(shù)據(jù)量的問(wèn)題

在使用神經(jīng)網(wǎng)絡(luò)算法處理自然語(yǔ)言問(wèn)題時(shí),另一個(gè)非常容易被忽視的問(wèn)題就是數(shù)據(jù)量。

這里作者打了個(gè)比方:假設(shè)我們使用一萬(wàn)頁(yè)的文本數(shù)據(jù)量來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。那么全球范圍內(nèi)人類(lèi)完整的知識(shí)儲(chǔ)備又有多少呢?這顯然是一個(gè)無(wú)法計(jì)算的天文數(shù)字,這里不妨假設(shè)這些知識(shí)的總量有10的21次方頁(yè)。那么問(wèn)題來(lái)了,僅僅通過(guò)一萬(wàn)頁(yè)的訓(xùn)練數(shù)據(jù),如何讓神經(jīng)網(wǎng)絡(luò)掌握全部10的21次方頁(yè)的全部知識(shí)呢?答案是:可用的訓(xùn)練數(shù)據(jù)量實(shí)在太小了。

另一方面,對(duì)于語(yǔ)法規(guī)則和語(yǔ)義理解領(lǐng)域的專(zhuān)家來(lái)說(shuō),人類(lèi)的大腦顯然能夠完全掌握這10的21次方頁(yè)的全部知識(shí)(因?yàn)檫@些知識(shí)就是那些專(zhuān)家寫(xiě)出來(lái)的)。而且更關(guān)鍵的是,任何一個(gè)普通人,只要具備最基本的讀寫(xiě)能力,就都能通過(guò)自主學(xué)習(xí)逐漸掌握這10的21次方頁(yè)的完整知識(shí),作者認(rèn)為,這才是人腦與現(xiàn)階段的神經(jīng)網(wǎng)絡(luò)模型相比最可怕的地方,即真正的學(xué)習(xí)能力。

  關(guān)于“磚”和“橋”

作者認(rèn)為,要完美解決自然語(yǔ)言處理的問(wèn)題,就必須找到一種能掌握語(yǔ)法和語(yǔ)義的全新的機(jī)器學(xué)習(xí)方法,而不是詞匯與詞匯之間的簡(jiǎn)單映射,甚至也不是現(xiàn)階段的神經(jīng)網(wǎng)絡(luò)模型。這里作者用“磚”和“橋”的例子做了說(shuō)明。

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡(luò)算法為什么不適合自然語(yǔ)言處理

目前,科學(xué)家們只是從人類(lèi)大腦神經(jīng)網(wǎng)絡(luò)處理現(xiàn)實(shí)問(wèn)題的基本原理中得到啟發(fā),構(gòu)造了當(dāng)前的神經(jīng)網(wǎng)絡(luò)模型。就好像上圖中磚和橋的關(guān)系,由于并沒(méi)有理解人腦處理問(wèn)題的深層機(jī)制,就好像沒(méi)有看到橋,只看到了磚一樣,因此當(dāng)前的神經(jīng)網(wǎng)絡(luò)模型只是在微觀(guān)結(jié)構(gòu)上模擬人腦,并沒(méi)有實(shí)現(xiàn)完整的問(wèn)題解決框架,而這種宏觀(guān)的框架可能才是處理如自然語(yǔ)言理解這類(lèi)困難問(wèn)題的關(guān)鍵。這里作者將這一框架稱(chēng)為建立在神經(jīng)網(wǎng)絡(luò)之上的網(wǎng)絡(luò),即“網(wǎng)絡(luò)之網(wǎng)絡(luò)”(network of networks)。需要強(qiáng)調(diào)的是,這種“網(wǎng)絡(luò)之網(wǎng)絡(luò)”并非簡(jiǎn)單的增加現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的層次或者改變網(wǎng)絡(luò)內(nèi)部的反饋方向,而是一種更高級(jí)的組織形式。

作者表示,人類(lèi)大腦這種宏觀(guān)的問(wèn)題解決框架至關(guān)重要,在生物學(xué)家們破解這一深層奧秘之前,我們只能耐心等待。而在此之前,所謂的“深度學(xué)習(xí)”也許只能稱(chēng)為“深度黑暗”(deep darkness)了。

那么回到谷歌翻譯的問(wèn)題,谷歌究竟是在炒作么?答案可能是肯定的。作者認(rèn)為:由于目前我們對(duì)人腦神經(jīng)網(wǎng)絡(luò)系統(tǒng)的理解尚處于非常淺薄的階段,因此幾乎所有關(guān)于我們已經(jīng)完全掌握了其中的關(guān)鍵技術(shù),并取得了重大突破的表述也就都可以認(rèn)為是“炒作”。作者同時(shí)調(diào)侃道:當(dāng)然也有例外,比如谷歌已經(jīng)領(lǐng)先競(jìng)爭(zhēng)對(duì)手一個(gè)世紀(jì),秘密地破譯了人腦神經(jīng)網(wǎng)絡(luò)系統(tǒng)的深層工作原理,也即發(fā)現(xiàn)了那座由為數(shù)眾多的“磚”組成的“橋”。

來(lái)源:linkedin,由雷鋒網(wǎng)編譯  雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

谷歌是在炒作么?大牛詳解神經(jīng)網(wǎng)絡(luò)算法為什么不適合自然語(yǔ)言處理

分享:
相關(guān)文章

編輯

歡迎交流,微信:whl123465
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)