丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給叢末
發(fā)送

0

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

本文作者: 叢末 2019-11-25 00:20
導(dǎo)語(yǔ):微軟小冰首席科學(xué)家宋睿華、微軟小冰首席 NLP 科學(xué)家武威、微軟小冰首席語(yǔ)音科學(xué)家欒劍三員大將坐鎮(zhèn)!

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」這是 18 歲少女微軟小冰造出來(lái)的句子,咋一聽(tīng)來(lái),倒是很能引起萬(wàn)千熱戀中的少男少女的同理心:「這可不就是戀愛(ài)后的幸福肥嗎?」

唱歌、寫(xiě)詩(shī)、作畫(huà)...... 作為一款主業(yè)為「陪聊」的對(duì)話機(jī)器人,微軟小冰近幾年來(lái)不斷解鎖其他副業(yè)的進(jìn)階之路,受到了不少關(guān)注。然而為什么要讓微軟小冰唱歌、寫(xiě)詩(shī)、作畫(huà)以及現(xiàn)在為什么還讓她開(kāi)啟了「造 比喻句」技能?微軟小冰這些技能的背后又有哪些技術(shù)支撐?伴隨著前不久第七代微軟小冰的誕生,各位心中的這些疑問(wèn)想必又被放大了不止一倍。

這不,微軟團(tuán)隊(duì)就專門(mén)開(kāi)了場(chǎng)研討會(huì)來(lái)為大家做講解了,并且還派出了微軟小冰首席科學(xué)家宋睿華、微軟小冰首席 NLP 科學(xué)家武威、微軟小冰首席語(yǔ)音科學(xué)家欒劍三員大將坐鎮(zhèn),不僅介紹了微軟小冰 2019 年的最新研究進(jìn)展,還分別從對(duì)話、人工智能創(chuàng)造以及跨模態(tài)理解三大技術(shù)板塊介紹了微軟小冰背后的技術(shù)原理。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

從左至右依次為:武威、欒劍、宋睿華

在走進(jìn)小冰的硬核技術(shù)解析前,我們來(lái)看看小冰從 2014 年誕生以來(lái)到如今更新到第七代,都實(shí)現(xiàn)了哪些成果?

一、更新到第七代,小冰實(shí)現(xiàn)了什么?

微軟小冰首席科學(xué)家宋睿華首先介紹了小冰自 2014 年誕生以來(lái)的整體研究概況。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

一開(kāi)始,她就強(qiáng)調(diào)了小冰從 2014 年誕生以來(lái)到如今更新到第七代所承載的使命,那便是:改變連接人類和世界的方式。

「比如說(shuō)互聯(lián)網(wǎng)出現(xiàn)之時(shí),人們?cè)僖膊恍枰叩绞澜绲牧硪欢巳カ@取知識(shí)和圖片等信息,而是在家就能非常方便地看到并獲得遠(yuǎn)方的信息,這是改變了連接人類和世界的方式的一項(xiàng)技術(shù);而當(dāng)下人人攜帶的手機(jī)則再一次改變了連接人類和世界的方式,甚至有人調(diào)侃說(shuō)新聞流的軟件比你自己更了解自己的喜好。

而我們預(yù)測(cè),未來(lái) AI 也將成為改變?nèi)祟惿鐣?huì)的一項(xiàng)技術(shù)。如果讓 AI 作為連接人類與世界的中間載體,就可以讓人類通過(guò)更自然的 、多感官的交互與世界建立聯(lián)系?!?/p>

進(jìn)一步,宋睿華指出,除了構(gòu)建知識(shí)圖譜和提供服務(wù)以幫助人類與世界更加自然地「打交道」外,還希望能夠讓 AI 創(chuàng)造內(nèi)容,小冰在兩年前發(fā)布了人類歷史上第一本人工智能創(chuàng)作的詩(shī)集,在今年舉辦了人類史上的第一個(gè) AI 畫(huà)展,便都是人工智能創(chuàng)造的一部分。

而要檢驗(yàn)小冰是否真地能夠成為改變連接人類和世界的方式、與人類自然相處的技術(shù),就必須要對(duì)其進(jìn)行落地,據(jù)悉,目前小冰已經(jīng)搭載了 4.5 億臺(tái)第三方智能設(shè)備,而微軟內(nèi)部為衡量 EQ 的高低所「發(fā)明」的 CPS(人工智能和單個(gè)用戶的平均對(duì)話輪次)指標(biāo)上,目前小冰已達(dá)到 23 輪。

對(duì)小冰進(jìn)行簡(jiǎn)單的介紹后,宋睿華落腳到小冰背后的四個(gè)技術(shù)研發(fā)重點(diǎn):對(duì)應(yīng)核心對(duì)話的自然語(yǔ)言處理、對(duì)應(yīng)聽(tīng)覺(jué)和發(fā)聲的語(yǔ)音學(xué)研究、對(duì)應(yīng)視覺(jué)和表情的計(jì)算機(jī)視覺(jué)和圖形學(xué)以及多對(duì)應(yīng)內(nèi)容創(chuàng)造的多模態(tài)生成。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

基于這幾項(xiàng)技術(shù)研發(fā)重點(diǎn),小冰的研究團(tuán)隊(duì)在過(guò)去幾年中也取得了一系列學(xué)術(shù)成果,包括 48 篇在 AAAI、IJCAI、ACL、KDD 等國(guó)際學(xué)術(shù)頂會(huì)上發(fā)表的論文、72 項(xiàng)在全雙工、多模態(tài)等領(lǐng)域極具領(lǐng)先性的專利。而在今年,團(tuán)隊(duì)也在在 ACL、IJCAI 等國(guó)際頂會(huì)上發(fā)表了 10 篇論文,與此同時(shí),「Love is as Complex as Math」這篇論文還在 CLSW 2019 上獲得了優(yōu)秀論文獎(jiǎng)。

接下來(lái),她與微軟小冰首席 NLP 科學(xué)家武威、微軟小冰首席語(yǔ)音科學(xué)家欒劍分別從對(duì)話、在人工智能創(chuàng)造和跨模態(tài)三個(gè)方面介紹了微軟小冰背后的技術(shù)原理。

二、兼具學(xué)習(xí)+自我管理+知識(shí)聯(lián)結(jié)能力,才能朝向自我完備

「朝向自我完備的對(duì)話機(jī)器人」是微軟小冰首席 NLP 科學(xué)家武威這次分享的主題,而之所以選擇采用「自我完備(Self-Complete)」一詞,他表示,是經(jīng)過(guò)深思熟慮后認(rèn)為該詞能夠很好地概括小冰在過(guò)去幾年中的研究成果。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

他認(rèn)為,一個(gè)能夠自我完備的對(duì)話機(jī)器人應(yīng)該擁有以下幾項(xiàng)能力:

  • 第一,學(xué)習(xí)能力。學(xué)習(xí)是人類發(fā)展進(jìn)化并走向成熟的一個(gè)基本能力,對(duì)于對(duì)話機(jī)器人而言亦然如此。而對(duì)話機(jī)器人的學(xué)習(xí)能力有兩個(gè)層次,一是能夠從人類的對(duì)話中學(xué)習(xí)怎樣去說(shuō)話;二是當(dāng)對(duì)話機(jī)器人發(fā)展得越來(lái)越成熟之后, 每個(gè)機(jī)器人可能都在各自專注的領(lǐng)域有很豐富的知識(shí)那是否有可能讓這些機(jī)器人之間互相學(xué)習(xí),從而實(shí)現(xiàn)信息共享和能力互補(bǔ)呢?

  • 第二,自我管理能力。從初級(jí)層次來(lái)看,對(duì)話機(jī)器人能夠管理好單輪對(duì)話的表達(dá),從更高級(jí)的層次來(lái)看,它在管理好單輪表達(dá)后,還要能夠把控好整個(gè)對(duì)話流程。

  • 第三,知識(shí)聯(lián)結(jié)能力,即對(duì)話機(jī)器人能夠聯(lián)結(jié)散落在世界上的各項(xiàng)多模態(tài)知識(shí)。

而對(duì)于對(duì)話機(jī)器人的整體發(fā)展而言,這三項(xiàng)能力貫穿起來(lái)其實(shí)是構(gòu)成了一條縱向,此外,還有一條橫向,即核心對(duì)話引擎的進(jìn)化,以小冰為例,一開(kāi)始小冰使用檢索模型通過(guò)重用已有的人類對(duì)話來(lái)實(shí)現(xiàn)人機(jī)交互;后來(lái)采用生成模型以自己合成回復(fù);再到后來(lái)則使用共感模型去自主地把握整個(gè)的對(duì)話流程。

其中,對(duì)于這三項(xiàng)朝向自我完備的能力,武威進(jìn)行了更加詳盡的解說(shuō):

1、學(xué)習(xí)能力

首先從檢索模型上來(lái)看,下圖展示了檢索模型在學(xué)習(xí)上這 4 年來(lái)的發(fā)展情況,每一個(gè)方框都代表一個(gè)模型,而紅色的方框則代表微軟小冰團(tuán)隊(duì)的工作:

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

「基本上這 4 年來(lái),模型從最簡(jiǎn)單的 LSTM 模型發(fā)展到了最近的預(yù)訓(xùn)練模型,模型的質(zhì)量得到了非常大的飛躍。而指標(biāo)上的飛躍實(shí)際上是一個(gè)表面現(xiàn)象,背后代表了這個(gè)模型從單輪到多輪、從淺層次的表示和匹配到深層次、寬度的表示和匹配的一個(gè)發(fā)展進(jìn)程?!?/p>

而對(duì)于這幾年來(lái)發(fā)表的相關(guān)主題的論文,武威認(rèn)為背后的思想可歸結(jié)為:將用戶的輸入和機(jī)器人的回復(fù)候選都表示為向量,再通過(guò)計(jì)算向量的相似度來(lái)度量回復(fù)候選是否是合適的回復(fù)。

由于很多研究者認(rèn)為深度學(xué)習(xí)的本質(zhì)就是表示學(xué)習(xí),因而大家的研究思路基本上都為:研究怎樣表示用戶輸入和回復(fù)候選。而在深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)時(shí)代,表示的方法非常之多,最簡(jiǎn)單的方法如詞向量甲醛平均,之后出現(xiàn)的方法如卷積神經(jīng)網(wǎng)、循環(huán)神經(jīng)網(wǎng)以及基于句子的表示等等。

用戶輸入和回復(fù)候選表示以外,檢索模型也可以嘗試在匹配上做得更細(xì),例如微軟小冰團(tuán)隊(duì)首先讓用戶輸入和回復(fù)侯選在每一個(gè)詞上都進(jìn)行交互,然后得到一個(gè)充分交互的矩陣,接著把交互的信息從這個(gè)矩陣中通過(guò)神經(jīng)網(wǎng)絡(luò)抽取出來(lái),最后得出匹配程度。

而隨著對(duì)話機(jī)器人從單輪對(duì)話發(fā)展到多輪對(duì)話,表示就從表示一句話變稱表示多句話,這就需要進(jìn)行一個(gè)額外的工作,即表示上下文中的多句話后,還要將多句話的表示糅合成上下文的表示再進(jìn)行匹配。在匹配上,機(jī)器人也能夠結(jié)合上下為做細(xì)膩度的交互,例如可以將上下文中每一句輸入和回復(fù)候選進(jìn)行交互,再將交互信息通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)整合起來(lái)成為最終的上下文和回復(fù)候選的匹配程度。

以微軟小冰團(tuán)隊(duì)今年在 WSDM 和 ACL 上的工作為例:

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

深度學(xué)習(xí)發(fā)展至今,一個(gè)句子或一個(gè)詞會(huì)有多種表示,然而如何在一個(gè)深度匹配網(wǎng)中融合這些表示呢?一般既可以在匹配的開(kāi)始就融合這些表示,也可以在匹配的中間和最后融合表示。這項(xiàng) WSDM 工作中,其最重要的成果就是,他們發(fā)現(xiàn)越晚融合這些表示,效果就越好,并且在最后一步融合時(shí),取得了在標(biāo)準(zhǔn)數(shù)據(jù)上最好的結(jié)果。而這個(gè)模型現(xiàn)在基本上成為了各種做檢索模型必備的一個(gè)基線模型。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

在 ACL 這項(xiàng)工作中,微軟小冰團(tuán)隊(duì)的考量點(diǎn)是能否將模型做寬以及做深。當(dāng)時(shí)的想法是已有的檢索模型都對(duì)上下文和回復(fù)候選進(jìn)行了一次交互進(jìn)而得到其匹配程度,那是否能在一次交互之后將剩余信息再度進(jìn)行交互呢,基于這一思路,他們最終做出了一個(gè)深度匹配網(wǎng)。該模型目前也在標(biāo)準(zhǔn)數(shù)據(jù)集上是保持著最好的效果。

其次從生成模型上來(lái)看,檢索模型在學(xué)習(xí)上的發(fā)展進(jìn)程有 4 個(gè)維度:

  • 從單輪生成模型到多輪生成模型

  • 從通用回復(fù)到有信息內(nèi)容的生成

  • 從無(wú)法接入外部知識(shí)到能夠自然地引入外部知識(shí)

  • 從單一模態(tài)的生成到涵蓋聲音、視覺(jué)和語(yǔ)言的多模態(tài)的生成

武威指出,生成模型雖然發(fā)展時(shí)間不長(zhǎng),但是發(fā)展速度非???,簡(jiǎn)單的生成模型就是基于注意力機(jī)制的端到序列到序列的模型,而考慮到這種模型非常容易生成非常頻繁、沒(méi)有信息量的回復(fù),在 2017 年,他們就思考能否把話題內(nèi)容引入到回復(fù)中,讓生成的回復(fù)更有內(nèi)容,因而當(dāng)時(shí)就提了這樣一個(gè)模型:

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

基本思想就是通過(guò)外部無(wú)監(jiān)督訓(xùn)練話題模型,產(chǎn)生一些話題語(yǔ)料,然后在生成模型中通過(guò)一個(gè)話題注意力機(jī)制去遴選這樣的話題語(yǔ)料,最后再在解碼過(guò)程中單獨(dú)做出一個(gè)話題的生成概率,讓話題能夠更容易出現(xiàn)在回復(fù)中。

在多輪生成上,研究團(tuán)隊(duì)也開(kāi)展了很多研究工作,以今年在 EMNLP 上發(fā)表的一項(xiàng)工作為例,思想是通過(guò)一種無(wú)監(jiān)督方式,對(duì)對(duì)話上下文進(jìn)行補(bǔ)全,然后進(jìn)行回復(fù)。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

在基于知識(shí)、多模態(tài)的生成上,業(yè)界也有一些工作,比如基于網(wǎng)絡(luò)把知識(shí)、情感多模態(tài)的內(nèi)容引入到對(duì)話生成里面。

機(jī)器人可以從人類的對(duì)話中學(xué)習(xí)怎么去說(shuō)話,那能否讓機(jī)器人通過(guò)互相學(xué)習(xí)來(lái)共同進(jìn)步呢?

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

對(duì)此,微軟小冰團(tuán)隊(duì)也做了一個(gè)簡(jiǎn)單的嘗試,即讓兩個(gè)檢索模型在訓(xùn)練過(guò)程中互為師生,互相交流。在每一次迭代中,一個(gè)模型都把它從數(shù)據(jù)中學(xué)到的知識(shí)傳達(dá)給另外一個(gè)模型,同時(shí)又從另外一個(gè)模型中接觸到它的知識(shí),然后這兩個(gè)模型互相學(xué)習(xí),最終能夠得到共同的進(jìn)步。

下面三個(gè)圖實(shí)際上是對(duì)應(yīng)了學(xué)習(xí)的三種策略,包括動(dòng)態(tài)的數(shù)據(jù)課程、動(dòng)態(tài)的樣本加權(quán)以及動(dòng)態(tài)的最大間隔。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

在每個(gè)策略中,紅線左側(cè)表示的是不需要算法進(jìn)行訓(xùn)練的模型,紅線右側(cè)的算法名字叫 Co-teaching,即兩個(gè)機(jī)器人互相教的一個(gè)過(guò)程。原本模型的訓(xùn)練效果是沿著藍(lán)線繼續(xù)走的,而使用了 Co-teaching 算法后,每一個(gè)模型的訓(xùn)練效果都得到了提升,也就是說(shuō)著三個(gè)策略下所有的「教學(xué)相長(zhǎng)」都是可以實(shí)現(xiàn)的。

2、自主管理能力

據(jù)武威介紹,自主管理在小冰里面一個(gè)最有趣的應(yīng)用是在其第六代中發(fā)布的共感模型,共感模型的核心是通過(guò)對(duì)話策略對(duì)整個(gè)的對(duì)話流程進(jìn)行把控,其背后實(shí)際上有兩個(gè)模型:

  • 回復(fù)生成模型,決定的是機(jī)器人說(shuō)什么。

  • 策略決定模型,決定的是機(jī)器人要怎么去說(shuō)。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

這兩個(gè)模型結(jié)合在一起,讓微軟小冰從原來(lái)基于上下文直接產(chǎn)生回復(fù)的模式轉(zhuǎn)變?yōu)椋夯谏舷挛倪M(jìn)行決策,然后再根據(jù)決策來(lái)決定最終的回復(fù)。其中最大的靈活性就在于策略環(huán)節(jié),其策略可以是一些意圖、話題,也可以是一些情感等等,當(dāng)然也可以是意圖、話題、情感的組合,而這種策略組合,可以產(chǎn)生非常多樣的、復(fù)雜的對(duì)話流程。對(duì)話機(jī)器人可以通過(guò)這種策略模型去管理整個(gè)復(fù)雜的對(duì)話。

與此同時(shí),他也指出兩個(gè)需要解決的問(wèn)題:

  • 問(wèn)題一:給定一個(gè)策略,比如要表達(dá)的意圖、情感、話題,模型能不能準(zhǔn)確地生成把既定的策略表達(dá)出來(lái)的回復(fù)呢?與此同時(shí),對(duì)話機(jī)器人不僅要表達(dá)這個(gè)策略,還要保證回復(fù)在上下文語(yǔ)境下是流暢的。

  • 問(wèn)題二:在有很多策略的時(shí)候,對(duì)話機(jī)器人怎么在一個(gè)對(duì)話流中組合這些策略呢?

對(duì)于第二個(gè)問(wèn)題,常用辦法標(biāo)注一些數(shù)據(jù),通過(guò)有監(jiān)督的最大似然估計(jì)辦法,來(lái)學(xué)習(xí)策略組合,也可以設(shè)定一些回報(bào)函數(shù),通過(guò)增強(qiáng)學(xué)習(xí)的辦法,來(lái)學(xué)習(xí)這種策略組合。

而對(duì)于第一個(gè)問(wèn)題,小冰團(tuán)隊(duì)今年在 ACL 的一項(xiàng)工作中的思路是:不管意圖也好、話題也好、情感也好、個(gè)性也好,其實(shí)都代表了回復(fù)的一種屬性,那怎么能找到一個(gè)一般方法能夠用來(lái)生成表達(dá)多屬性的回復(fù)呢?基于這一思路,他們提出了 Meta-Word 的概念,而 Meta-Word 實(shí)際上代表了屬性的組合,即在整個(gè)對(duì)話的流程中,可以通過(guò)變換屬性組合生成各種各樣的回復(fù),進(jìn)而組合成多種對(duì)話。他認(rèn)為,有了這項(xiàng)工作后,對(duì)話的多樣性或者說(shuō)對(duì)話生成的多樣性就不再是問(wèn)題。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

進(jìn)一步,他指出這種模型至少有以下幾個(gè)好處:

  • 第一,可解釋性很強(qiáng),讓開(kāi)發(fā)者和終端用戶能在對(duì)話機(jī)器人生成回復(fù)之前都能知道可能會(huì)得到哪些回復(fù);

  • 第二,可以把 Meta-Word 做成像一個(gè)接口一樣,讓工程師可以通過(guò)編輯這個(gè)接口來(lái)編輯 Meta-Word 中的屬性,以及屬性值去打造具有各種各樣的風(fēng)格、情感、話題、意圖的各類對(duì)話機(jī)器人;

  • 第三,Meta-Word 也提供了一種一般的解決方案,像現(xiàn)在的一些前沿研究方向,包括基于話題的對(duì)話生成、情感的對(duì)話生成、個(gè)性化的對(duì)話生成,都可以在這個(gè)框架下找到一個(gè)解決方案,不僅如此,這個(gè)方案還具有很好的擴(kuò)展性,工程師們通過(guò)簡(jiǎn)單地增加、減少或者修改 Meta-Word 里面的屬性值,就可以調(diào)整整個(gè)生成模型的效果。

3、知識(shí)聯(lián)結(jié)能力

說(shuō)到聯(lián)結(jié),無(wú)疑就涉及到多模態(tài)交互,而簡(jiǎn)單而言,多模態(tài)交互指的是輸入可以是對(duì)話、語(yǔ)音、文本知識(shí)、多媒體,輸出也可以是對(duì)話、語(yǔ)音、多媒體,在這個(gè)過(guò)程中很重要的問(wèn)題是機(jī)器人如何能夠把多模態(tài)的知識(shí)聯(lián)結(jié)在一起進(jìn)行消化、吸收,最終將其有機(jī)地組合起來(lái)變成一個(gè)輸出。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

這些多模態(tài)知識(shí)散落在各個(gè)地方,可能是在網(wǎng)上,也可能是在論壇中,那如何把這些散落在各個(gè)地方的知識(shí)聯(lián)結(jié)在一起,然后以一種一致的方式通過(guò)對(duì)話機(jī)器人輸出出來(lái)呢?

武威認(rèn)為,一旦能夠?qū)崿F(xiàn)這一點(diǎn),多模態(tài)交互也基本解決了。

三、小冰為什么要唱歌以及如何唱歌?

欒劍從更加輕松的視角,主要聚焦「為什么要讓小冰唱歌?」、「如何讓小冰唱歌?」兩個(gè)方面介紹了小冰唱歌的技術(shù)進(jìn)展。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

“為什么要讓小冰唱歌?”

針對(duì)這一被提問(wèn)了多次的問(wèn)題,欒劍做了解釋:其實(shí) 2015 年,小冰就具備了語(yǔ)音聊天的功能,即除了文字回復(fù)以外,還能夠通過(guò)聲音來(lái)回復(fù)。而這個(gè)聲音推出之初,受到了業(yè)界以及很多 C 端用戶的廣泛關(guān)注和好評(píng)。在當(dāng)時(shí)這個(gè)聲音聽(tīng)起來(lái)非常生動(dòng)活潑,而且非常符合小冰的人設(shè):一個(gè)精靈古怪的萌妹子。

后來(lái)在一年多的時(shí)間里,團(tuán)隊(duì)給這個(gè)聲音加了很多技能,比如兒化音、中英文混雜的朗讀、講兒童故事、各種情感的表現(xiàn),并隨之意識(shí)到,語(yǔ)音合成領(lǐng)域一些主要的、大方向上的東西可能都已經(jīng)解決了,而在類如分詞、多音字、韻律等方面可能還是有一些瑕疵,而這可能需要通過(guò)語(yǔ)義理解長(zhǎng)時(shí)間的積累和技術(shù)的發(fā)酵,來(lái)一步步地解決。

基于此,團(tuán)隊(duì)認(rèn)為可能要尋找一個(gè)更有挑戰(zhàn)性的課題來(lái)繼續(xù)開(kāi)展研究,而最終選擇做唱歌主要有三個(gè)原因:

  • 第一,唱歌的門(mén)檻比說(shuō)話高。普通人都會(huì)說(shuō)話,但是不是所有人都會(huì)唱歌的,更不是所有人都能唱得好聽(tīng),與此同時(shí),唱歌還有三個(gè)要素,即除了發(fā)音之外,它還有其它要素的要求,所以它在技術(shù)上有難點(diǎn)。

  • 第二,唱歌在情感表達(dá)上更加豐富激烈一些。古人說(shuō)「幸甚至哉,歌以詠志」,說(shuō)明人們?cè)谔貏e高興的時(shí)候就想唱歌,《詩(shī)經(jīng)》說(shuō)「心之憂矣,我歌且謠」,說(shuō)明人類在悲傷的時(shí)候也喜歡唱歌?,F(xiàn)在流行歌曲里面有很多情歌都是和失戀相關(guān)的,不管因?yàn)槭裁丛蚴?,都能找到一首與其心境很對(duì)應(yīng)的情歌。而除了高興和悲傷之外,在一些比較重要、有紀(jì)念意義的場(chǎng)合,比如說(shuō)今年是建國(guó) 70 周年,大家在那段時(shí)間可能都會(huì)被《我和我的祖國(guó)》這首歌單曲循環(huán),所以歌曲是一種喜聞樂(lè)見(jiàn)的形式。

  • 第三,唱歌是一種很重要的娛樂(lè)形式。隨著《快樂(lè)女生》、《我是歌手》、《中國(guó)好聲音》類似的節(jié)目紅遍大江南北,他們認(rèn)為唱歌應(yīng)該是很有市場(chǎng)前景的研究方向。

決定讓小冰唱歌后,具體該如何讓小冰唱歌呢?

這就需要研究一下唱歌和說(shuō)話有什么不同,因?yàn)槌璧暮芏嗉夹g(shù)可以說(shuō)是從語(yǔ)音合成沿襲過(guò)來(lái)的,經(jīng)過(guò)分析,他們歸納出了三大要素:

  • 第一,發(fā)音,因?yàn)槌璨皇呛吒瑁皇怯谩赴 够蛘摺膏拧拱堰@首歌哼出來(lái)就好了,吐字發(fā)音一定要清晰,這和說(shuō)話是一樣的。

  • 第二,節(jié)拍,它是通過(guò)一種節(jié)奏的變化來(lái)表現(xiàn)藝術(shù)的形式,像我們普通的說(shuō)唱,比如「一人我飲酒醉」這種說(shuō)唱的形式,可能沒(méi)有其它的旋律,主要就是靠節(jié)拍的組合來(lái)表達(dá),節(jié)拍是唱歌里面非常重要的要素。

  • 第三,旋律,每個(gè)字的音高會(huì)不太一樣,如果音高唱錯(cuò)了、跑調(diào)了,這首歌肯定就沒(méi)法聽(tīng)了。

這三大要素構(gòu)成了唱歌最基本的元素,當(dāng)然基于這三大要素也可以疊加很多的技巧,比如顫音、氣音等。

那這三種要素通過(guò)什么方式讓機(jī)器能夠知道應(yīng)該怎么唱歌呢?

  • 第一,如果有人唱過(guò)這首歌,那機(jī)器就可以通過(guò)這個(gè)人唱的歌學(xué)習(xí)這首歌應(yīng)該是什么樣子。

  • 第二,通過(guò)曲譜的方式,可以是簡(jiǎn)譜也可以是五線譜,它們下面都有歌詞,其中簡(jiǎn)譜則既有歌詞,也有發(fā)音的元素以及節(jié)拍和音高。

而追溯到傳統(tǒng)唱歌合成的方式,其主要包括兩大類:

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

  • 第一類:?jiǎn)卧唇拥姆绞健?/p>

這種方式出現(xiàn)得比較早,基本思想是可以先建一個(gè)單元庫(kù),這些單元的含義在普通話中可以是聲母和韻母,中文有 21 個(gè)聲母,有 35 個(gè)韻母。如果不考慮聲調(diào)的話,音節(jié)大概有 400 個(gè)左右,可以把這些單元分別找一個(gè)發(fā)音來(lái)錄,比如說(shuō)「a」這個(gè)發(fā)音,可以錄不同長(zhǎng)度、音高的「a」,以此去采集這樣一個(gè)單元庫(kù)。

創(chuàng)建好單元庫(kù)以后,可以根據(jù)發(fā)音、目標(biāo)時(shí)長(zhǎng)和目標(biāo)音高,從單元庫(kù)里面去挑選一個(gè)最符合要求的單元,然后通過(guò)信號(hào)處理的方法去修改它的時(shí)長(zhǎng)、音高,使得它能夠完美匹配想要達(dá)到的效果,然后再把這些單元串起來(lái)進(jìn)行單元拼接,得到最后的音頻。

這個(gè)方法最大的優(yōu)點(diǎn)是比較簡(jiǎn)便易行,而且音質(zhì)基本可以保留在采集聲音時(shí)的最佳音質(zhì),但是它也存在問(wèn)題,其中最大的問(wèn)題便是:因?yàn)閱卧杉倪^(guò)程中,每個(gè)發(fā)音都是單獨(dú)采集的,而在一串語(yǔ)流里面,單獨(dú)的發(fā)音和在一串語(yǔ)流里面連續(xù)的發(fā)音之間的差別較大,所以用這種方法生成出來(lái)的歌會(huì)比較生硬一些,唱得不是那么自然,而且因?yàn)樗耆怯蓡卧唇拥模宰兓赡軙?huì)相對(duì)少一些,字與字之間的過(guò)渡也不會(huì)很好。

  • 第二類:參數(shù)合成的方法。

最早的參數(shù)合成就是隱馬爾可夫模型,這個(gè)方法在語(yǔ)音行業(yè)里面已經(jīng)被用了很多年。這種方法就不是建一個(gè)單元庫(kù)了,而是將所有錄音的數(shù)據(jù)都提取出聲學(xué)參數(shù),包括能量譜、時(shí)長(zhǎng)、音高,然后去建一個(gè)模型,等到要合成的時(shí)候,就根據(jù)需要的發(fā)音在模型中國(guó)將這個(gè)聲學(xué)參數(shù)預(yù)測(cè)出來(lái),然后通過(guò)聲學(xué)參數(shù)、聲碼器把音頻的波形重構(gòu)出來(lái)。

這種方式比較靈活,基本上可以視作把一個(gè)東西完全打碎之后再重新拼起來(lái)一樣,所以它的變化很豐富,甚至可以創(chuàng)造一個(gè)從來(lái)不存在的聲音,可以得到一些在訓(xùn)練集里面根本沒(méi)有出現(xiàn)過(guò)的東西。但是它最大的缺陷就在于聲碼器,即將它變成了參數(shù),然后參數(shù)再還原成聲音的這個(gè)過(guò)程中會(huì)有音質(zhì)的損失,所以它最大的缺陷就是音質(zhì)上可能會(huì)比第一個(gè)方法更低。

據(jù)介紹,小冰一開(kāi)始選擇采用的就是第二種方式,因?yàn)閳F(tuán)隊(duì)認(rèn)為第二種方式的前景更加廣闊,因而后續(xù)的重點(diǎn)研究也集中在對(duì)第二種方式的提高上。

小冰最開(kāi)始采用的模型就是從樂(lè)譜中把唱歌的三大要素采集出來(lái)之后,分別用三個(gè)模型對(duì)聲譜參數(shù)、節(jié)奏序列、音高軌跡分別建模,這里用的是 DNN,也就是神經(jīng)網(wǎng)絡(luò)。然后把預(yù)測(cè)出來(lái)的參數(shù)通過(guò)聲碼器生成波形。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

團(tuán)隊(duì)一開(kāi)始采用最簡(jiǎn)單的模塊化方式來(lái)做唱歌模型,但是隨之發(fā)現(xiàn)了問(wèn)題,即同樣一個(gè)發(fā)音,比如「啊」這個(gè)發(fā)音,在高音和低音上的的音色會(huì)有比較明顯的區(qū)別,這時(shí)如果都用同樣的方式合成,可能會(huì)出現(xiàn)問(wèn)題。對(duì)此,他們把節(jié)奏和音高的預(yù)測(cè)結(jié)果作為輸入,傳到聲譜參數(shù)預(yù)測(cè)里,通過(guò)這種方式緩解了此問(wèn)題。

進(jìn)一步考慮到既然三個(gè)參數(shù)之間有很重要的耦合性,互相之間需要協(xié)調(diào)、同步預(yù)測(cè),他們就干脆用一個(gè)模型同時(shí)預(yù)測(cè)這三個(gè)參數(shù)。在最新的模型里面,他們用到了很復(fù)雜的結(jié)構(gòu),包括全卷積神經(jīng)網(wǎng)絡(luò)、注意力以及殘差連接等等,用這種方式生成出來(lái)的波形,它的自然度和流暢度會(huì)得到一個(gè)明顯的提升。

一個(gè)好的模型,除了要在數(shù)據(jù)上取得成功,更關(guān)鍵的是它的適用性要比較強(qiáng),目前小冰在任何一個(gè)聲音、風(fēng)格上,都能建模的比較好,并且取得比較好的效果。

而在數(shù)據(jù)上,正如深度學(xué)習(xí)之所以發(fā)展得這么好一大重要支撐便是數(shù)據(jù)一樣,唱歌這項(xiàng)任務(wù)也需要數(shù)據(jù),然而該任務(wù)上的數(shù)據(jù)采集還比較困難,因?yàn)橄鄬?duì)于說(shuō)話來(lái)說(shuō),清唱的數(shù)據(jù)非常少——絕大部分的數(shù)據(jù)是混雜著伴奏的音軌。

該如何去利用這種已有的混合了伴奏的數(shù)據(jù)進(jìn)行很好的學(xué)習(xí)呢?這里其實(shí)提出來(lái)了三個(gè)問(wèn)題:

  • 第一,要把伴奏里人聲部分的時(shí)間軸找到;

  • 第二,能夠準(zhǔn)確找到每個(gè)發(fā)音的起始和結(jié)束時(shí)間;

  • 第三,要把人聲的音高軌跡提取出來(lái)。

如果這三點(diǎn)能做到的話,小冰就能從含有伴奏的音軌的數(shù)據(jù)里面學(xué)到旋律,進(jìn)而豐富演唱風(fēng)格。

針對(duì)如何在伴奏音頻在如何更好地提取人聲的音高,小冰團(tuán)隊(duì)也發(fā)表了一篇論文,在這里欒劍重點(diǎn)強(qiáng)調(diào)了論文實(shí)現(xiàn)了三點(diǎn)創(chuàng)新:

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

  • 第一,模型的輸入用的是原始波形,而不是常規(guī)的能量譜,這是因?yàn)樘崛∫舾邥r(shí),模型主要是要檢測(cè)周期性,所以它的相位信息是非常重要的,如果是能量譜的話,那這個(gè)相位就丟失了。

  • 第二,模型采用全卷積網(wǎng)絡(luò)+殘差連接的網(wǎng)絡(luò)結(jié)構(gòu),非常清晰、簡(jiǎn)潔;

  • 第三,軟分類標(biāo)簽,即要準(zhǔn)確判斷每個(gè)時(shí)刻音高對(duì)應(yīng)的是 77 個(gè)鋼琴鍵里面的哪一個(gè)鍵,傳統(tǒng)的方式可能是硬標(biāo)簽,比如說(shuō)就是學(xué)習(xí)的時(shí)候標(biāo)注這個(gè)時(shí)刻對(duì)應(yīng)的中音八度的那個(gè)鍵,但是只有那個(gè)鍵會(huì)標(biāo)「1」,其它的地方都標(biāo)「0」,實(shí)際上這個(gè)方法會(huì)有一個(gè)問(wèn)題,就是忽略了檢測(cè)結(jié)果和標(biāo)準(zhǔn)結(jié)果偏差一個(gè)鍵值或者偏差 10 個(gè)鍵值之間錯(cuò)誤的程度的差別是很大的。

最后他總結(jié)到,接下來(lái)不管是在人工智能創(chuàng)造方面,還是唱歌的提高上,都要兩條腿走路:一邊要不斷提高模型,一邊要不斷挖據(jù)更多的數(shù)據(jù)。如果在這兩方面取得越來(lái)越多進(jìn)展,小冰在人工智能創(chuàng)造和唱歌上的質(zhì)量就會(huì)不斷得到提高。

四、小冰造出驚人比喻句的背后又做了哪些技術(shù)探索?

最后,宋睿華再次上臺(tái)介紹了小冰在人工智能創(chuàng)造上的另一種嘗試——?jiǎng)?chuàng)造比喻。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

她提到開(kāi)始這項(xiàng)嘗試的契機(jī)非常偶然:某次在跟學(xué)生聊天時(shí),有一位同學(xué)提到網(wǎng)上有一種說(shuō)法,即不管什么樣句子,后面加一個(gè)「愛(ài)情也是這樣的」都是說(shuō)得通的。我就問(wèn)他為什么,他舉了個(gè)例子——「人有兩條腿,愛(ài)情也是這樣的」,在我思考原因之際,又有一個(gè)同學(xué)說(shuō)「你的意思是愛(ài)情總會(huì)走嗎?」另一位同學(xué)反駁到:「為什么不是愛(ài)情總會(huì)來(lái)呢?」這給我留下了非常深刻的印象。我們不妨將這種說(shuō)法視為一種規(guī)則,愛(ài)情也是這樣的一種規(guī)則。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

確定這個(gè)研究課題后,研究團(tuán)隊(duì)首先要考慮的就是喻體,比方說(shuō)把「愛(ài)情」比作什么,并且要求不要在人類已有的文章里去挖掘這種比喻句,而是要讓小冰真正創(chuàng)造出人類不曾說(shuō)過(guò)的比喻。

經(jīng)過(guò)更加細(xì)致地分析這一問(wèn)題后,他們發(fā)現(xiàn),本體一般是比較抽象的,是難以理解的,比如說(shuō)愛(ài)情,之所以在某句子后面加一個(gè)「愛(ài)情也是這樣的」都能對(duì),是因?yàn)椤笎?ài)情」真的是太復(fù)雜了,人們沒(méi)法抓住它,就會(huì)認(rèn)為好像怎么樣都是可以解釋的。

其中,他們也從詩(shī)歌中去找概念,發(fā)現(xiàn)詩(shī)里最多這種難以理解的抽象概念,因而從詩(shī)歌的主題中抽取了 120 個(gè)主題,擴(kuò)展出 6 個(gè)詞,經(jīng)過(guò)日志過(guò)濾后找出小冰的用戶也喜歡說(shuō)的一些概念,最終找到了 96 個(gè)概念。

如下圖中的表格所示,這張表的左邊是小冰的用戶中最常提到的 10 個(gè)抽象的概念,而找到的喻體實(shí)際上跟這幾個(gè)概念的關(guān)聯(lián)并不大,而且是一些非常具體、好理解的概念,經(jīng)過(guò)日志挖掘以及計(jì)算某個(gè)詞的具體程度進(jìn)行排序等操作,最后找到了 3000 個(gè)名詞。這張表的右邊展示了可以作為喻體的候選的一些詞,比如說(shuō)食物、信號(hào)、游戲等等,這些都是比較具體的。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

接下來(lái)如何解這個(gè)問(wèn)題呢?

宋睿華接著介紹,假設(shè)有了一個(gè)本體「愛(ài)情」和一個(gè)喻體「中國(guó)足球」,他們用詞向量來(lái)表達(dá)這兩個(gè)看上去是毫不相關(guān)的概念,并將它們變成向量,經(jīng)過(guò)降維之后,投影在二維空間上。

如下圖所示,「愛(ài)情」的周圍有婚姻、感情等詞語(yǔ),「中國(guó)足球」周圍有開(kāi)局、比賽等詞語(yǔ),二者與周圍詞語(yǔ)的關(guān)聯(lián)性都非常高,說(shuō)明了這種向量的表達(dá)效果非常好。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

其中靠近一邊的詞其實(shí)并不是那么好用,而位于二者中間地帶的詞,即有一種平衡的詞是最好用的,比如說(shuō)「愛(ài)情像中國(guó)足球一樣虛幻」,或者是「愛(ài)情像中國(guó)足球一樣沒(méi)有未來(lái)」這樣的一些比喻會(huì)給人們一種新穎卻不突兀的感覺(jué)。

下表展示的是團(tuán)隊(duì)當(dāng)時(shí)用自動(dòng)方法把和愛(ài)情不相關(guān)的一些概念挖掘出來(lái)的一些連接詞,其中被標(biāo)為綠色的部分是算法自動(dòng)認(rèn)為比較合適做連接詞的一些詞,比如說(shuō)「愛(ài)情」和「股票」之間,算法自動(dòng)發(fā)現(xiàn)了「貶值」、「博弈」;「愛(ài)情」和「數(shù)組」之間發(fā)現(xiàn)了「復(fù)雜」;「愛(ài)情」和「風(fēng)水」之間是「迷信」;愛(ài)情和葡萄酒之間是「奢侈品」。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

針對(duì)最后這一組的發(fā)現(xiàn),宋睿華談到,剛開(kāi)始并不是很理解,直到所有的算法做完后得出了比喻句「愛(ài)情就像葡萄酒,對(duì)程序員來(lái)說(shuō)都是奢侈品」他們才發(fā)現(xiàn)還挺有感覺(jué)的。

隨著進(jìn)一步研究,團(tuán)隊(duì)發(fā)現(xiàn)如果將這些連接詞「分而治之」,它們可以有不同的詞性,比如說(shuō)形容詞、名詞和動(dòng)詞,各自處理方式是不太一樣的。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

其中形容詞比較簡(jiǎn)單,比如「愛(ài)情」和「數(shù)學(xué)」之間可以找到一個(gè)形容詞——「復(fù)雜」,如果用這個(gè)詞來(lái)連接它們,就可以利用搜索引擎把「愛(ài)情」和「復(fù)雜」搜一下,再根據(jù)返回的結(jié)果知道「復(fù)雜」是否可以形容「數(shù)學(xué)」和「愛(ài)情」,從而判定「復(fù)雜」可以是合適的連接詞。一旦確定,就可以用一個(gè)模板將它嵌進(jìn)去:「愛(ài)情是復(fù)雜的,和數(shù)學(xué)一樣」。而如果連接詞是動(dòng)詞和名詞,要比形容詞難做一些。

在動(dòng)詞方面,比如本體是「靈魂」,喻體是「球迷」,「吶喊」是連接詞,那怎樣生成解釋呢?方法是:首先把「靈魂」和「吶喊」作為聯(lián)合的關(guān)鍵字放到搜索引擎里搜索,把前一萬(wàn)個(gè)結(jié)果甚至十萬(wàn)個(gè)結(jié)果拿回來(lái),在這些結(jié)果的摘要中找出相關(guān)的短語(yǔ),并且采用 NLP 分析找出這些句子的主謂結(jié)構(gòu),將主謂結(jié)構(gòu)的詞和「球迷」進(jìn)行相似性匹配,看這些詞在語(yǔ)義上是否和「球迷」有一些關(guān)聯(lián)——越是關(guān)聯(lián),就越是可以連接它們。在實(shí)驗(yàn)中,排在前面的短語(yǔ)就是「在無(wú)聲的吶喊」,由此在模板中形成的句子便是:「靈魂就像球迷一樣,在無(wú)聲的吶喊」。

在名詞方面,方法和動(dòng)詞比較像,但在抽取結(jié)構(gòu)時(shí),即在搜索引擎前面一萬(wàn)條、十萬(wàn)條的摘要中,要抽取的是動(dòng)賓結(jié)構(gòu)的短語(yǔ)。比如說(shuō)喻體和本體分別為「愛(ài)情」和「脂肪」,把「愛(ài)情」和連接詞「積累」一起放入搜索引擎中搜索時(shí),找到一個(gè)很好的短語(yǔ)——「是點(diǎn)點(diǎn)滴滴的積累」,它跟「脂肪」匹配得也不錯(cuò),由此得出了一個(gè)比喻句:「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

在評(píng)價(jià)方面,他們采取的方法是:

  • 首先評(píng)價(jià)連接詞是否合適,即讓標(biāo)注者去想像,如果「愛(ài)情」和「數(shù)學(xué)」用「復(fù)雜」來(lái)連接,是否能想像到一種聯(lián)系,如果覺(jué)得可以,就可以打上標(biāo)簽「1」,如果不可以,就標(biāo)成「0」。在這一步驟中,大概有 1/4 的連接詞都是不錯(cuò)的。

  • 接著,基于這些連接詞,團(tuán)隊(duì)采用「分而治之」的方法造出了 1965 個(gè)比喻句,并從三個(gè)方面對(duì)這些句子進(jìn)行了評(píng)價(jià):第一,造出的這個(gè)比喻句是否通順;第二,這個(gè)比喻是否恰當(dāng);第三,這個(gè)比喻是否新穎。

下圖是小冰生成的比喻句的更多示例,有好也有壞:

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

隨后團(tuán)隊(duì)又將這些比喻句放到了線上去檢測(cè)一下用戶對(duì)小冰創(chuàng)造出的比喻有什么反映,并測(cè)試了三種可能性:

  • 第一,不要用比喻,就用陳述句,比如說(shuō)「心靈是閃光的」。

  • 第二,用一輪的比喻說(shuō)出去,比如說(shuō)「心靈像鉆石一樣閃光」。

  • 第三,把對(duì)話拆成兩輪,第一輪賣一個(gè)關(guān)子說(shuō)「我聽(tīng)說(shuō)心靈像鉆石,你知道為什么嗎?」然后用戶說(shuō)「為什么呀?」或者其他的,小冰就會(huì)說(shuō)「因?yàn)樗鼈兌际情W光的」。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

結(jié)果發(fā)現(xiàn),比喻句果然是要比陳述句來(lái)的吸引人一些。其中,拆成兩輪的對(duì)話中,用戶更喜歡「先賣一個(gè)關(guān)子,然后再解釋」的方式。

五、跨模態(tài)理解:如何讓小冰看到文字就能想到畫(huà)面?

本次分享的第三個(gè)技術(shù)板塊——跨模態(tài)理解,依舊由宋睿華帶來(lái)分享。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

首先,她先一段文字中的三句話「北極熊愛(ài)吃海豹肉,而且愛(ài)吃新鮮的」、「北極熊常常躡手躡腳地接近獵物,像貓兒那樣肚皮貼著地面,慢慢靠近,最后一躍而起,伸出爪子,露出獠牙」、「當(dāng)北極熊悄然接近獵物,它有時(shí)會(huì)用爪子遮住自己的鼻頭,這樣一來(lái),它就會(huì)變得更不易被察覺(jué),很明顯,北極熊是在遮掩自己的鼻子」出發(fā),闡述了人在理解語(yǔ)言時(shí),不僅會(huì)應(yīng)用頭腦中控制語(yǔ)言的部分,還會(huì)調(diào)動(dòng)其他感官的事實(shí)。

想要讓小冰更像人類,讓她更好地理解對(duì)話和語(yǔ)言,是不是也可以模擬人類的能力,在短短的語(yǔ)言背后找到一些非常常識(shí)性的東西呢?

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

對(duì)此,宋睿華指出可以將其定義成這樣一個(gè)問(wèn)題:針對(duì)由 N 句話構(gòu)成的一個(gè)故事,能否讓機(jī)器生成 M 個(gè)對(duì)應(yīng)著 N 句話的圖片,即像人類聽(tīng)到這個(gè)故事后想象出來(lái)的場(chǎng)景一樣。

而這種做法其實(shí)跟現(xiàn)在很多熱門(mén)的課題都很相似,例如 Text-to-Image、Text-to-Video、Story-to-Image 等等,而這些方法總體而言,主要采用了兩種方法:

  • 第一,基于生成的方法,也就是 GANs;

  • 第二,基于檢索的方法,將文字和圖片聯(lián)合嵌入到一個(gè)空間中,以判定文字和哪一個(gè)圖像比較接近、比較搭配。

在 ACM MM 這篇文章中,小冰團(tuán)隊(duì)受模擬體驗(yàn)假說(shuō)的啟發(fā),考慮能不能讓小冰也有自己的針對(duì)圖像和文字的匹配的以往記憶,從而也可以在看到一個(gè)故事的句子后調(diào)出她以前的一些經(jīng)驗(yàn),然后模擬出現(xiàn)在的場(chǎng)景,甚至做一些替換,然后使得這個(gè)場(chǎng)景更加一致。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

具體而言,即通過(guò) Story-to-Image Retrieval 的方法來(lái)使驅(qū)動(dòng)小冰「回憶」出這樣一個(gè)圖像。不過(guò)宋睿華也提到,在這一環(huán)節(jié)面臨三個(gè)難點(diǎn):

第一,對(duì)故事中的一句話做查詢,實(shí)際上和 Image Search 的查詢有一個(gè)很大的不同,即這句話是上下文高度相關(guān)的,不能單拿出來(lái)理解,而是一定要放在整個(gè)故事的語(yǔ)境中理解,對(duì)此,他們做了一個(gè)比較復(fù)雜的 Hierarchical Attentions,以更好地利用上下文語(yǔ)境。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

第二,如果把故事畫(huà)成一個(gè)故事板時(shí),細(xì)節(jié)上哪怕有一點(diǎn)不對(duì)應(yīng),都會(huì)讓人覺(jué)得怪怪的,比如說(shuō)「這個(gè)狗和我一起玩網(wǎng)球」,如果得到的圖像是「狗在玩飛盤(pán)」就會(huì)讓人感覺(jué)有點(diǎn)奇怪,因而做匹配時(shí)要非常嚴(yán)謹(jǐn)。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

第三,一句話有時(shí)候信息量很大,或者圖片庫(kù)并沒(méi)有那么湊巧剛好有一幅圖可以展示出所有的信息點(diǎn),這時(shí)候人類藝術(shù)家可能會(huì)同時(shí)用幾幅圖來(lái)展示這一句話,但是數(shù)據(jù)庫(kù)中,用來(lái)做訓(xùn)練的數(shù)據(jù)都是一個(gè)接一個(gè)的,并不存在這樣的數(shù)據(jù)。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

此外,這項(xiàng)任務(wù)高度依賴于圖片庫(kù)中到底有什么,所以他們提出了 One-to-Many 算法來(lái)解決這一問(wèn)題,例如「有一個(gè)老太婆養(yǎng)著一只母雞,它每天下一個(gè)黃燦燦的金蛋」這個(gè)句子會(huì)檢索出一張有雞的圖片,而通過(guò)使用 One-to-Many 算法,就能夠在得到的這張圖前面再插入一張老奶奶的圖片。

該算法分別在 In-domain(VIST)以及 Out-domain(GraphMovie)數(shù)據(jù)集上進(jìn)行了測(cè)試,都獲得了不錯(cuò)的效果和排名(如下兩表所示)。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

最后,宋睿華對(duì)于研討會(huì)分享的三個(gè)重點(diǎn)環(huán)節(jié)進(jìn)行了總結(jié),并對(duì)小冰未來(lái)的發(fā)展進(jìn)行了展望:

  • 在對(duì)話方面,希望小冰能夠?qū)崿F(xiàn)更加自主的更新,更加自主地控制對(duì)話流;

  • 在人工智能創(chuàng)造方面,希望小冰能夠在才藝上實(shí)現(xiàn)更多的創(chuàng)新,其中要重點(diǎn)擴(kuò)展學(xué)習(xí)資源以不斷突破創(chuàng)新的邊界;

  • 在多模態(tài)上,希望小冰能夠像人類一樣去理解世界以及與人交互,其中既面臨著數(shù)據(jù)問(wèn)題,也面臨著模態(tài)大跨度的挑戰(zhàn),這就需要大家研究出更好地融合多模態(tài)信息的方法。

「我們一開(kāi)始推出小冰其實(shí)是希望能夠做出一個(gè)對(duì)話框架,而這五年來(lái)小冰逐漸長(zhǎng)成了一棵大樹(shù),在此過(guò)程中也在不斷地督促我們?nèi)チ私庠鯓佑眉夹g(shù)構(gòu)建出實(shí)現(xiàn)像人一樣的人工智能所必須的要素。時(shí)至今日,我們也希望未來(lái)她能夠成為一個(gè)通用平臺(tái),去幫助研究者和廠商們開(kāi)發(fā)出各種各樣的 AI,并最終形成一片 AI 森林。我們將這樣的 AI 平臺(tái)稱為 AI beings?!顾晤HA用這段話為本次研討會(huì)的分享劃上了一個(gè)圓滿的句號(hào)。

雷鋒網(wǎng) AI 科技評(píng)論報(bào)道。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

「愛(ài)情就像脂肪,是點(diǎn)點(diǎn)滴滴的積累」,微軟小冰造句天馬行空,三大首席科學(xué)家萬(wàn)字解密背后技術(shù)原理

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)