丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給蔣寶尚
發(fā)送

0

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

本文作者: 蔣寶尚 2020-02-03 16:42
導(dǎo)語(yǔ):人工智能技術(shù)普及的今天,攻克對(duì)聯(lián)難關(guān)早就有人來(lái)嘗試進(jìn)行了

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

(雷鋒網(wǎng)出品)對(duì)聯(lián)傳統(tǒng)源遠(yuǎn)流長(zhǎng),一幅寫(xiě)春聯(lián)的需要極高的文學(xué)素養(yǎng),不僅要求平仄齊整、意境對(duì)稱,還要表達(dá)辟邪除災(zāi)、迎祥納福的美好愿望。但是對(duì)于現(xiàn)代人來(lái)說(shuō),由于對(duì)傳統(tǒng)文學(xué)的生疏和缺乏對(duì)對(duì)聯(lián)的練習(xí),對(duì)對(duì)聯(lián)變得不容易了。

但是人工智能技術(shù)普及的今天,攻克對(duì)聯(lián)難關(guān)早就有人來(lái)嘗試進(jìn)行了。其中最為著名,最富有文學(xué)氣息的當(dāng)屬微軟亞洲研究院的對(duì)聯(lián)系統(tǒng),其由微軟亞洲研究院副院長(zhǎng)周明負(fù)責(zé)開(kāi)發(fā),并能夠利用本交互方式可以隨意修改下聯(lián)和橫批。如下圖所示,就“千江有水千江月”一對(duì)就可對(duì)出“萬(wàn)里無(wú)云萬(wàn)里天”。

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

地址:http://duilian.msra.cn/default.htm

不過(guò),在新奇以及個(gè)性化方面不如最近新崛起的百度春聯(lián)系統(tǒng),百度開(kāi)發(fā)的對(duì)聯(lián)系統(tǒng)有刷臉出對(duì)聯(lián)以及藏頭對(duì)聯(lián)等系統(tǒng)。如下圖所示,以人工智能為題眼,AI給出的一幅對(duì)聯(lián)。

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

手機(jī)打開(kāi)喲:https://aichunlian.cctv.com/?from=singlemessage&isappinstalled=0

不僅能刷臉生成對(duì)聯(lián),還可以預(yù)測(cè)合成你20歲年紀(jì)模樣。雷鋒網(wǎng)用李飛飛博士的一張照片試了一下,可以在下方滾動(dòng)區(qū)域清晰的看到每一步的文字。結(jié)果顯示預(yù)測(cè)年齡為32歲,AI給顏值打80分。另外,生成的李博士20歲的照片頗為青春(* ̄︶ ̄)。

當(dāng)然,還有去年非常火的個(gè)人版AI對(duì)聯(lián),設(shè)計(jì)者是本科畢業(yè)于黑龍江大學(xué)計(jì)算機(jī)專業(yè),碩士畢業(yè)于英國(guó)萊斯特大學(xué)讀計(jì)算機(jī)碩士的王斌。從測(cè)試結(jié)果(如下圖)來(lái)看,對(duì)于一般的對(duì)聯(lián)效果也是杠杠滴~

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

對(duì)聯(lián)地址:https://ai.binwang.me/couplet/

雷鋒網(wǎng)介紹,這個(gè)AI的訓(xùn)練,是基于深度學(xué)習(xí)seq2seq模型,用到了TensorFlow和Python 3.6,代碼已經(jīng)開(kāi)源,你可以自行打開(kāi)下面的GitHub地址下載開(kāi)源代碼嘗試訓(xùn)練。另外,訓(xùn)練它所用的數(shù)據(jù)集來(lái)自一位名為馮重樸_梨味齋散葉的博主的新浪博客,總共包含超過(guò)70萬(wàn)副對(duì)聯(lián)。

開(kāi)源代碼:

https://github.com/wb14123/seq2seq-couplet

訓(xùn)練數(shù)據(jù)集:https://github.com/wb14123/couplet-dataset

所以想自己寫(xiě)春聯(lián)的,但又憋不出大招的小伙伴,可以使用上述任一AI系統(tǒng)打造出屬于你自己的對(duì)聯(lián)。

AI對(duì)聯(lián)背后的技術(shù)

關(guān)于AI對(duì)聯(lián)所采用的技術(shù),微軟周明在博客中曾經(jīng)寫(xiě)過(guò)這樣一段話:“我設(shè)計(jì)了一個(gè)簡(jiǎn)單的模型,把對(duì)聯(lián)的生成過(guò)程看作是一個(gè)翻譯的過(guò)程。給定一個(gè)上聯(lián),根據(jù)字的對(duì)應(yīng)和詞的對(duì)應(yīng),生成很多選字和候選詞,得到一個(gè)從左到右相互關(guān)聯(lián)的詞圖,然后根據(jù)一個(gè)動(dòng)態(tài)規(guī)劃算法,求一個(gè)最好的下聯(lián)出來(lái)。

從上述文字我們可以知道,AI對(duì)聯(lián)采用的是一系列機(jī)器翻譯算法。和不同語(yǔ)言之間的翻譯不同的是,給出上聯(lián),AI對(duì)出下聯(lián)是同種語(yǔ)言之間的翻譯。

這也就是說(shuō)對(duì)聯(lián)系統(tǒng)的水平直接依賴于機(jī)器翻譯系統(tǒng)的發(fā)展歷程。

機(jī)器翻譯的最初的源頭可以追溯到1949年,那時(shí)的技術(shù)主流都是基于規(guī)則的機(jī)器翻譯, 最常見(jiàn)的做法就是直接根據(jù)詞典逐字翻譯,但是這種翻譯方法效果確實(shí)不太好?!耙?guī)則派”敗北之后,日本京都大學(xué)的長(zhǎng)尾真教授提出了基于實(shí)例的機(jī)器翻譯,即只要存上足夠多的例句,即使遇到不完全匹配的句子,也可以比對(duì)例句,只要替換不一樣的詞的翻譯就可以。但這種方式并沒(méi)有掀起多大的風(fēng)浪。

1993年發(fā)布的《機(jī)器翻譯的數(shù)學(xué)理論》論文中提出了由五種以詞為單位的統(tǒng)計(jì)模型,其思路主要是把翻譯當(dāng)成機(jī)率問(wèn)題,這種翻譯方式雖然在當(dāng)時(shí)風(fēng)靡一時(shí),但真正掀起革命的還是2014年深度學(xué)習(xí)的興起。

2016年谷歌正式宣布將所有統(tǒng)計(jì)機(jī)器翻譯下架,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯上位,成為現(xiàn)代機(jī)器翻譯的絕對(duì)主流。具體來(lái)說(shuō),目前市面上的AI對(duì)聯(lián)基本上都是基于attention機(jī)制的seq2seq模型的序列生成任務(wù)訓(xùn)練而成。seq2seq模型又叫Encoder-Decoder。

關(guān)于此模型AI科技評(píng)論之前曾經(jīng)寫(xiě)過(guò)一篇文章詳細(xì)介紹,尚未理解的讀者請(qǐng)戳此《完全圖解RNN、RNN變體、Seq2Seq、Attention機(jī)制》閱讀。

現(xiàn)在我們也把關(guān)鍵部分摘要如下:Encoder-Decoder結(jié)構(gòu)先將輸入數(shù)據(jù)編碼成一個(gè)上下文向量c:

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

得到c有多種方式,最簡(jiǎn)單的方法就是把Encoder的最后一個(gè)隱狀態(tài)賦值給c,還可以對(duì)最后的隱狀態(tài)做一個(gè)變換得到c,也可以對(duì)所有的隱狀態(tài)做變換。

拿到c之后,就用另一個(gè)網(wǎng)絡(luò)對(duì)其進(jìn)行解碼,這部分網(wǎng)絡(luò)結(jié)構(gòu)被稱為Decoder。具體做法就是將c當(dāng)做之前的初始狀態(tài)h0輸入到Decoder中:

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

還有一種做法是將c當(dāng)做每一步的輸入:

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

由于這種Encoder-Decoder結(jié)構(gòu)不限制輸入和輸出的序列長(zhǎng)度,因此應(yīng)用的范圍非常廣泛。

Attention機(jī)制

在Encoder-Decoder結(jié)構(gòu)中,Encoder把所有的輸入序列都編碼成一個(gè)統(tǒng)一的語(yǔ)義特征c再解碼,因此,c中必須包含原始序列中的所有信息,它的長(zhǎng)度就成了限制模型性能的瓶頸。如機(jī)器翻譯問(wèn)題,當(dāng)要翻譯的句子較長(zhǎng)時(shí),一個(gè)c可能存不下那么多信息,就會(huì)造成翻譯精度的下降。

Attention機(jī)制通過(guò)在每個(gè)時(shí)間輸入不同的c來(lái)解決這個(gè)問(wèn)題,下圖是帶有Attention機(jī)制的Decoder:

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

每一個(gè)c會(huì)自動(dòng)去選取與當(dāng)前所要輸出的y最合適的上下文信息。具體來(lái)說(shuō),我們用aij衡量Encoder中第j階段的hj和解碼時(shí)第i階段的相關(guān)性,最終Decoder中第i階段的輸入的上下文信息 ci就來(lái)自于所有 hj 對(duì) aij  的加權(quán)和。以機(jī)器翻譯為例(將中文翻譯成英文):

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

輸入的序列是“我愛(ài)中國(guó)”,因此,Encoder中的h1、h2、h3、h4就可以分別看做是“我”、“愛(ài)”、“中”、“國(guó)”所代表的信息。在翻譯成英語(yǔ)時(shí),第一個(gè)上下文c1應(yīng)該和“我”這個(gè)字最相關(guān),因此對(duì)應(yīng)的a11就比較大,而相應(yīng)的 a12、a13、a14就比較小。c2應(yīng)該和“愛(ài)”最相關(guān),因此對(duì)應(yīng)的a22就比較大。最后的c3和h3、h4最相關(guān),因此a33、a34的值就比較大。

至此,關(guān)于Attention模型,我們就只剩最后一個(gè)問(wèn)題了,那就是:這些權(quán)重aij是怎么來(lái)的?

事實(shí)上,aij同樣是從模型中學(xué)出的,它實(shí)際和Decoder的第i-1階段的隱狀態(tài)、Encoder第j個(gè)階段的隱狀態(tài)有關(guān)。

同樣還是拿上面的機(jī)器翻譯舉例,a1j的計(jì)算(此時(shí)箭頭就表示對(duì)h'和 hj 同時(shí)做變換):

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

a2j 的計(jì)算:

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

a3j的計(jì)算:

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

以上就是帶有Attention的Encoder-Decoder模型計(jì)算的全過(guò)程。

關(guān)于解碼器和編碼器

解碼器和編碼器所用的網(wǎng)絡(luò)結(jié)構(gòu),在深度學(xué)習(xí)時(shí)代大多使用卷積網(wǎng)絡(luò)(CNN)和循環(huán)網(wǎng)絡(luò)(RNN),然而Google 提出了一種新的架構(gòu) Transformer也可以作為解碼器和編碼器。

注:Transformer最初由論文《Attention is All You Need》提出,漸漸有取代RNN成為NLP中主流模型的趨勢(shì),現(xiàn)在更是谷歌云TPU推薦的參考模型,包括谷歌給自己TPU打廣告的Bert就是Transformer模型??偟膩?lái)說(shuō),在NLP任務(wù)上其性能比前兩個(gè)神經(jīng)網(wǎng)絡(luò)的效果要好。

這徹底顛覆了過(guò)去的理念,沒(méi)用到 CNN 和 RNN,用更少的計(jì)算資源,取得了比過(guò)去的結(jié)構(gòu)更好的結(jié)果。

Transformer引入有以下幾個(gè)特點(diǎn):提出用注意力機(jī)制來(lái)直接學(xué)習(xí)源語(yǔ)言內(nèi)部關(guān)系和目標(biāo)語(yǔ)言內(nèi)部關(guān)系,1.拋棄之前用 RNN 來(lái)學(xué)習(xí);2.對(duì)存在多種不同關(guān)系的假設(shè),而提出多頭 (Multi-head) 注意力機(jī)制,有點(diǎn)類似于 CNN 中多通道的概念;3..對(duì)詞語(yǔ)的位置,用了不同頻率的 sin 和 cos 函數(shù)進(jìn)行編碼。

機(jī)器翻譯任重而道遠(yuǎn)

從對(duì)聯(lián)的角度來(lái)看,當(dāng)前的機(jī)器翻譯還有很大的改進(jìn)方向,例如前段時(shí)間有句很火的上聯(lián)“莫言路遙余秋雨”,我們用微軟對(duì)聯(lián)系統(tǒng)輸入之后,就沒(méi)有答案。出現(xiàn)這種問(wèn)題的原因在于算法和數(shù)據(jù)集。

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

然而我們把這個(gè)上聯(lián)輸入王斌版的對(duì)聯(lián)系統(tǒng),就會(huì)得到“看云山遠(yuǎn)處春風(fēng)”的下聯(lián)。雖說(shuō)給出了下聯(lián),但是意境和上聯(lián)相比卻相差甚遠(yuǎn):“莫言路遙余秋雨”的字面意思是近現(xiàn)代三位文人,意境是“不必言道路漫長(zhǎng)空余寂寥秋雨”,AI給出的下聯(lián)不僅在意境上無(wú)法呼應(yīng),字面意思也對(duì)應(yīng)不上。

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

管中窺豹,僅此一例便能看出當(dāng)前的機(jī)器翻譯存在一些問(wèn)題,正如AI科技評(píng)論從百度處獲悉:“當(dāng)前主要都是采用端到端序列生成的模型來(lái)自動(dòng)寫(xiě)對(duì)聯(lián)和寫(xiě)詩(shī),對(duì)于一般用戶來(lái)說(shuō)生成的春聯(lián)或者詩(shī)歌讀起來(lái)也能朗朗上口,感覺(jué)也不錯(cuò)。

從專業(yè)角度來(lái)說(shuō)其實(shí)還有很大的改進(jìn)空間,例如現(xiàn)有的模型都是基于語(yǔ)料學(xué)習(xí)生成的,而采集的春聯(lián)庫(kù)通常包含的詞匯是有限的,生成的春聯(lián)有一定的同質(zhì)性,內(nèi)容新意上有待繼續(xù)提升。其次是機(jī)器有時(shí)候會(huì)生成一些不符合常理的內(nèi)容,對(duì)生成內(nèi)容的理解也值得繼續(xù)深挖?!?/p>

宏觀到整個(gè)機(jī)器翻譯層面,不同語(yǔ)言之間的機(jī)器翻譯還存有很多技術(shù)難點(diǎn)亟待攻克,比如語(yǔ)序混亂、詞義不準(zhǔn)確等。

當(dāng)前的算法和算力的發(fā)展確實(shí)能夠解決一些特定的困難,但是機(jī)器翻譯的研究應(yīng)在以下三個(gè)方面有所突破:大語(yǔ)境,而不再是孤立句子地處理;基于理解而不再是停留在句法分析的層面;高度專業(yè)化和專門(mén)化。

參考文獻(xiàn):

https://www.jianshu.com/p/7e66bec3123b

http://www.citnews.com.cn/e/wap/show.php?classid=9&id=101568

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

春節(jié)對(duì)聯(lián)哪家強(qiáng),人工智能對(duì)得狂!

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)