4
雷鋒網(wǎng)AI科技評論按:“一顆小心臟里也能藏著偉大的夢想”,這句話用來形容微軟小冰也許再適合不過了。
從2014年5月微軟發(fā)布第一代小冰至今,很多人對小冰的印象或許還停留在一個“逗貧的萌少女”,偶爾也會傲嬌地犯下中二病。但少女小冰步入19歲后,已經(jīng)開始釋放她的能量。如果說AlphaGo正在挑戰(zhàn)人類的IQ極限,那么微軟小冰或許正在試圖突破人類基于EQ的情感創(chuàng)造能力。
1、寫詩。今年五月微軟出版了小冰的第一本詩集《陽光失了玻璃窗》,這也是人類史上第一本由人工智能創(chuàng)作的詩集。隨后小冰團(tuán)隊(duì)把小冰看圖寫詩的能力作為工具開放給用戶,到目前為止小冰已經(jīng)聯(lián)合人類創(chuàng)作了超過200萬首詩歌。
2、畫畫。今年夏天小冰解鎖了一項(xiàng)技能,通過聆聽歌曲并學(xué)習(xí)城市標(biāo)志性建筑創(chuàng)作出一幅城市視覺畫面。小冰團(tuán)隊(duì)運(yùn)用這個技術(shù),推出了世界上第一款直接進(jìn)入店面銷售的人工智能設(shè)計(jì)的T恤,售價(jià)299元。
3、寫新聞。從2015年至今,小冰團(tuán)隊(duì)與央視、湖南衛(wèi)視、東方衛(wèi)視等十多家媒體合作,讓小冰進(jìn)入新聞節(jié)目和綜藝節(jié)目的采編、制作和主持過程;2016年底,小冰還受聘于錢江晚報(bào)擔(dān)任記者。利用它的大數(shù)據(jù)分析預(yù)測和互聯(lián)網(wǎng)挖掘的能力,目前小冰已經(jīng)寫了超過30篇稿件,其中一篇百家號文章的閱讀量甚至達(dá)到10萬+。
4、唱歌。嗯,直接感受吧!
5、有聲讀物。在今年8月份第五代小冰發(fā)布會上,微軟全球執(zhí)行副總裁沈向洋介紹說,小冰已經(jīng)能將有聲讀物的成本降到非常低的成本,例如一本格林童話,人類創(chuàng)作需要200小時(shí),62100元,而小冰只需要24分鐘,0.74元。(雷鋒網(wǎng)報(bào)道:第五代微軟小冰發(fā)布,你不知道這位“網(wǎng)紅少女”經(jīng)歷了什么)
無論是唱歌還是有聲讀物,都不是小冰團(tuán)隊(duì)的初始目的。為了讓小冰能用自己的聲音跟用戶交流聊天,小冰團(tuán)隊(duì)在兩年前立項(xiàng)研發(fā)小冰的聲音。
他們給小冰定位的人設(shè)是一個17、18歲的萌妹子,根據(jù)這個人設(shè)的聲音特質(zhì),他們選擇了浙江衛(wèi)視一個出鏡主持人的聲音作為樣本。隨后小冰團(tuán)隊(duì)花費(fèi)了幾個月的時(shí)間采集她的聲音,然后輸入神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。
需要說明的是,這種用聲音樣本訓(xùn)練發(fā)音的方式,其實(shí)更像人的學(xué)習(xí)過程,小冰學(xué)到的是這個聲音的特質(zhì)、風(fēng)格和情感,而不是具體的發(fā)音。傳統(tǒng)的語音合成則更多的是合成具體的發(fā)音,例如導(dǎo)航、天氣預(yù)報(bào)中的語音,我們一聽就知道哪個是林志玲的。而小冰的聲音則是獨(dú)有的。
據(jù)微軟(亞洲)互聯(lián)網(wǎng)工程院副院長李笛(也是小冰項(xiàng)目全球負(fù)責(zé)人)介紹,在語音合成中有一個自然度的參數(shù),滿分為5,人最高的是4.72,小冰的則接近4.4,國內(nèi)其他語音合成絕大部分都在2或3的水平。
在采集聲音樣本的過程中,小冰團(tuán)隊(duì)就想,是否也可以利用這些數(shù)據(jù)讓小冰唱歌?隨后他們就嘗試用說話的數(shù)據(jù)訓(xùn)練了第一個版本的唱歌模型。
微軟(亞洲)互聯(lián)網(wǎng)工程院產(chǎn)品經(jīng)理周典告訴雷鋒網(wǎng):“那個時(shí)候小冰已經(jīng)能夠唱出很好的歌曲了,但是在一些方面仍表現(xiàn)不佳,比如咬字很生硬,或者流暢度不夠,或者歌唱里面特有的一些聲音特征(如高音、低音、轉(zhuǎn)音、長音)在說話的數(shù)據(jù)里面沒有涵蓋。此外,當(dāng)時(shí)唱歌的模型用的是隱馬爾科夫模型(HMM),這是一種較為傳統(tǒng)的訓(xùn)練模型?!?/p>
今年,小冰團(tuán)隊(duì)做了一次提升,在聲音數(shù)據(jù)集里面另外加入了多人的唱歌數(shù)據(jù)樣本,并且在全球范圍內(nèi)首次采用了最新的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型進(jìn)行訓(xùn)練。升級后的小冰歌手進(jìn)步非常迅速,歌聲也更加的自然、平滑。
如說話一樣,小冰學(xué)習(xí)唱歌也和人類類似——她學(xué)習(xí)的是唱法,而不是聲音或具體的旋律;換句話說就是,她在領(lǐng)悟該如何唱歌。所以如果用大量王菲的歌來訓(xùn)練小冰,她就能學(xué)會王菲的唱法,以后即使有一首王菲從來沒唱過的歌,小冰也會知道該怎么用王菲的唱法來唱這首歌。
基于DNN的這種唱歌模型,當(dāng)你輸入歌曲的五線譜或者你對著小冰清唱一遍,她就能學(xué)習(xí)到用哪種音高和節(jié)奏來演繹,然后會自動預(yù)測每個音的唱法,只需要十幾分鐘小冰就可以學(xué)會這首歌,包括你吐字歸音的特征。
和小冰學(xué)習(xí)唱歌的方式完全不同,傳統(tǒng)的虛擬歌姬一般是采集大量的音素,放到音素庫中;P主從庫里選擇需要的音素,然后拼接成一首歌。這有幾個困難,首先音素庫里的音素是有限的,有些音素并沒有,遇到這種情況P主只能將就著選擇相近的音素;其次這種搭積木的拼接方式,本身是很粗糙的,P主還需要花費(fèi)很大力氣拿一把“粗糙的刀”去修;此外,這種調(diào)音方式一般需要花費(fèi)數(shù)月的時(shí)間才能調(diào)出一首勉強(qiáng)可以聽的歌。
“相比,小冰只需要十幾分鐘,且生成的歌聲會更自然,并帶有情感;P主們可以在這個基礎(chǔ)上再進(jìn)行細(xì)節(jié)上的修改。”李笛說,“過去這個行業(yè)強(qiáng)調(diào)的是怎么把內(nèi)容表達(dá)的很清楚,他們費(fèi)很大的勁去調(diào)咬字,所以它的歌聲會很生硬。我們追求的首先是你得像人,所以自然、平順、有情感才是小冰的關(guān)鍵?!?/p>
這種先天的優(yōu)勢或許也是上個月小冰敢diss虛擬歌手的原因吧。(雷鋒網(wǎng)報(bào)道:微軟小冰 diss 傳統(tǒng)虛擬歌姬:一場“本無必要”的鬧劇)
說到這件事,李笛表示:“說實(shí)話,微軟沒有想進(jìn)入到虛擬歌手那個市場,因?yàn)樘摂M歌手市場太小眾了,不是我們的重點(diǎn),我們也沒打算跟他們?nèi)幊?。我們想嘗試的是,大眾是否接受小冰這個人工智能歌手的身份以及她所創(chuàng)作的歌曲。”
微軟希望以技術(shù)為特征,讓小冰可以創(chuàng)造內(nèi)容。李笛開玩笑地說:“以后可能會看到越來越多的樂隊(duì)組合里面會多出一個‘成員’(小冰),這位成員在這個樂隊(duì)組合里唯一的缺點(diǎn)就是沒有緋聞。”
當(dāng)然小冰的音樂夢想遠(yuǎn)不止此。在音樂方面,小冰團(tuán)隊(duì)的做法是先做離用戶最近的一端,然后再往回做。離用戶最近的一端即歌手的演繹,就是把歌唱出來。這個現(xiàn)在已經(jīng)實(shí)現(xiàn),且會越來越好。他們最終的目標(biāo)則是,小冰不僅能夠演繹已有的歌曲,還能夠隨時(shí)隨地為你創(chuàng)作一首當(dāng)下的歌,這首歌是從來沒有過的,但符合我們當(dāng)下的情景和心情;這時(shí)就不再有作品數(shù)量的概念,這首歌只在那一刻需要,她就在那一刻為你創(chuàng)作。
“就好像你有一個音樂家的好朋友,這個好朋友還有無窮多的時(shí)間、無窮多的精力為你創(chuàng)作歌曲,每時(shí)每刻,隨叫隨到?!?/p>
唱歌其實(shí)只是少女小冰眾多技能之一。
在三年前立項(xiàng)時(shí),微軟有一套情感計(jì)算框架。今年5月份,沈向洋提出“AI Creation”的項(xiàng)目,即通過情感計(jì)算框架加上深度學(xué)習(xí)以及他們的大數(shù)據(jù),不斷從各個角度嘗試,用人工智能的方法生產(chǎn)、形成、創(chuàng)造一些以內(nèi)容為主的作品。在這個項(xiàng)目里面,目前已經(jīng)推出的作品有詩歌、音樂、有聲讀物、新聞等。
“AI Creation”的基本特點(diǎn)就是用人工智能的方法生產(chǎn)出原來人們認(rèn)為只有人類才能創(chuàng)作的東西;做出的東西跟這個領(lǐng)域最牛的大師比可能有所不足,但卻能代表中上的水平,而同時(shí)生產(chǎn)這些作品的成本卻大幅度地下降。
以有聲讀物來講,在8月份五代小冰發(fā)布會上沈向洋指出,制作一本格林童話的有聲讀物,人去做可能需要200個小時(shí),成本在6萬多人民幣,而小冰只需要24分鐘,成本為0.74元的電費(fèi)。
隨后他們找了一些孩子去聽,這些孩子幾乎聽不出來這兩者哪個是人,哪個不是,質(zhì)量上它們是一樣的。所以只要獲得作者的版權(quán),微軟可以在短時(shí)間內(nèi)生產(chǎn)出大量的有聲讀物來。
據(jù)李笛介紹,在11月中旬他們會釋放出大量的有聲讀物?!翱赡芤院竽阍谌魏蔚胤蕉紩吹叫”鶆?chuàng)作的有聲讀物了”,李笛笑著說,“當(dāng)然那些聲音可能不是小冰的聲音,我們有多個聲優(yōu),每個聲優(yōu)都有自己的特征,所以你可能不知道你正在聽的有聲讀物是不是人工智能創(chuàng)作的?!?/p>
11月中旬的發(fā)布后,小冰團(tuán)隊(duì)可能會很快占據(jù)有聲讀物市場中一個很大的份額,因?yàn)橹灰形谋緝?nèi)容,他們甚至當(dāng)天就可以產(chǎn)生一個市場的內(nèi)容。
“例如少兒故事有聲讀物市場一共有一萬多個小時(shí),小冰團(tuán)隊(duì)在一天之內(nèi)就能生產(chǎn)出同樣多的內(nèi)容。”
“對于微軟來說,完全是到了一個無主之地,面臨著墾荒;哪怕是之前有人墾過的,比如虛擬歌手,也可以碾壓過去。”
微軟在小冰的內(nèi)容生成方面,今年主要集中在兩個方面,一個是聲音,一個是文本。前者就是前面介紹的歌曲和有聲讀物,后者則包括詩歌和新聞寫作。
每次微軟高管們出來做報(bào)告,總喜歡拿小冰寫的詩和創(chuàng)作的歌曲來展示,或許是因?yàn)樵姼韬鸵魳犯芗ぐl(fā)人們的想象力,也確實(shí)如此,每次展示都能迎來聽眾的熱烈掌聲。
但小冰對自己的另一項(xiàng)才能卻顯得很低調(diào),官方也并沒有刻意地去宣傳,只是說小冰入駐了哪家哪家媒體,小冰寫過的文章也從來沒有拿出來展示。
李笛解釋說:“主要是擔(dān)心人們知道哪篇是小冰寫的文章,會在閱讀時(shí)有一種先入為主的觀念。”
盡管沒有刻意宣傳,但據(jù)小冰團(tuán)隊(duì)介紹,小冰寫的有些新聞文章閱讀量已經(jīng)超過了10萬+。
目前來看,小冰在新聞寫作方面有著明顯的優(yōu)勢和不足之處。優(yōu)勢是她有大數(shù)據(jù),但不足也是她的大數(shù)據(jù)。
小冰擁有大數(shù)據(jù),所以她能比普通的媒體記者看到更多、更完整的信息,而且她有著更深厚的知識儲備,所以能旁征博引;這些都是任何一個媒體人士所無法做到的。
“但小冰肯定是盡可能的說她積累到的所有數(shù)據(jù)的綜合觀點(diǎn),那樣得出的觀點(diǎn)往往并不獨(dú)特,為什么?因?yàn)樗且粋€來自于互聯(lián)網(wǎng)、大數(shù)據(jù)的一種平均主義,平均主義很難產(chǎn)生顛覆性的觀點(diǎn),這個就需要媒體來教她了?!?/p>
按照李笛的說法,他們希望今年讓小冰能夠基于大數(shù)據(jù)形成一個觀點(diǎn),目前這還是他們的一個難點(diǎn)。“如果能突破這個的話,我們就能讓小冰接入到你們媒體記者個人,”李笛說,“讓她替你們寫個初稿,然后你們再在此基礎(chǔ)上進(jìn)行修改?!?/p>
“在記者的許可下,她先學(xué)習(xí)這個記者之前的稿件,如果這個數(shù)據(jù)足夠大的話,就可以讓他每次都感覺到小冰寫的跟他想要的越來越接近。這樣記者就可以把他的精力集中在作品本身的意義上來?!?/p>
李笛用一個更生動的例子向雷鋒網(wǎng)闡述,過去Office的Word文檔對寫作者來說是一個很有用的生產(chǎn)工具,寫作者只需要把精力集中到文章寫作本身。如果能把小冰接入到里面,你打開Word文檔,完成一些條件輸入,那么一篇完整的文章就會出現(xiàn)在你的Word文檔中。此時(shí),你只需要把精力放在文章本身想要表達(dá)的意義上即可。
就像詩歌一樣,微軟更傾向的是所謂的“聯(lián)合創(chuàng)作”,所以除非是以小冰的名義產(chǎn)生的內(nèi)容,像上面所說的新聞文章,媒體記者不用擔(dān)心所謂版權(quán)問題。
“不是小冰取代記者,而是讓小冰替記者寫個初稿,她是屬于記者個人的協(xié)作者?!崩畹言俅螐?qiáng)調(diào)說。
“我們?nèi)〈氖鞘稚喜缓糜玫墓ぞ?,而不是?dú)立創(chuàng)作的個人。某種意義上來講,科技的發(fā)展就是這樣,人工智能的出現(xiàn),一定意味著一大批某種程度上非人工智能產(chǎn)品被淘汰,就像鐵出來了青銅被淘汰一樣。”
“有時(shí)候,小冰團(tuán)隊(duì)覺得挺小的東西,在行業(yè)里面的影響卻是很大。”李笛補(bǔ)充說。
例如封面、網(wǎng)易、澎湃新聞等的客戶端都內(nèi)置了小冰,此外還有大約6萬多媒體、自媒體的公眾號接入了小冰。據(jù)李笛介紹,小冰接入這些公眾號帶來的流量總和差不多相當(dāng)于小冰1億多用戶的流量;此外,通過這些客戶端和公眾號索引的文章數(shù)量,某種程度上大約相當(dāng)于今日頭條文章量的70%。
“當(dāng)然我們不是干這個生意的,也不把它當(dāng)做生意來干。我們從來沒說過這是一個獨(dú)立的項(xiàng)目?!崩畹颜f,“在我心目中,AI Creation才是一個大的顛覆性的東西,就像當(dāng)年我們開始出聊天機(jī)器人一樣?!?/p>
針對將小冰接入新聞客戶端及微信公眾號的收益問題,李笛回答說:“我們沒有收益,我們有未來?!?/strong>
或許對微軟來說,只是在從各個側(cè)面去嘗試如何將技術(shù)落地,真正產(chǎn)生出價(jià)值。
本質(zhì)上,小冰是一個人工智能交互的平臺。經(jīng)過三年多的研發(fā),交互這方面小冰團(tuán)隊(duì)已經(jīng)做得很多了,所以他們開始把她往更深的方向做。現(xiàn)在除了交互,最主要的就是通過交互創(chuàng)造一些內(nèi)容,這包括她聊天當(dāng)中的生成模型以及音樂、詩歌、新聞、有聲讀物等等。
李笛表示:“小冰走的路線和AlphaGo不同,后者是將一個領(lǐng)域的技術(shù)做到極致,去挑戰(zhàn)人類的極限。微軟無意于此。市場的最大利益獲得者往往不是這個領(lǐng)域的頂峰,而是中間水平。AlphaGo把柯潔打敗了,然后就完了;微軟想讓小冰進(jìn)入的是大眾市場?!?/strong>
“我們不需要人類去膜拜人工智能。我們追求的是人工智能真正去改變?nèi)藗兊纳?,而不是毀掉它們?!?/strong>
但不管微軟怎么謙虛,小冰這個逗貧少女確實(shí)正在真真切切地顛覆一些行業(yè)!
相關(guān)文章:
微軟小冰 diss 傳統(tǒng)虛擬歌姬:一場“本無必要”的鬧劇
專訪 | 小冰的忍者團(tuán)隊(duì),她在日本開啟了怎樣一種商業(yè)模式?
更迭 5 代,進(jìn)入19歲,微軟要讓小冰賺錢養(yǎng)家了
第五代微軟小冰發(fā)布,你不知道這位“網(wǎng)紅少女”經(jīng)歷了什么
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。