丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給陳孝良
發(fā)送

4

詳解聲紋識(shí)別:如何正確評(píng)價(jià)小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨(dú)家解析

本文作者: 陳孝良 2017-01-15 19:50
導(dǎo)語(yǔ):百度小度的聲紋識(shí)別真的超過(guò)人類大腦了嗎?為何最強(qiáng)大腦節(jié)目組的布局和所追求的理念又顯得不太搭配?

雷鋒網(wǎng)按:作者陳孝良,博士,聲智科技創(chuàng)始人,曾任中科院聲學(xué)所副研究員和信息化辦公室主任,中科院上海高等研究院客座,北京市公安局首屆網(wǎng)絡(luò)應(yīng)急專家,主要從事聲學(xué)信號(hào)處理和 GPU 深度學(xué)習(xí)算法研究工作。本文系雷鋒網(wǎng)獨(dú)家首發(fā)文章。

百度小度在“最強(qiáng)大腦”比賽中以1:1戰(zhàn)平名人堂公認(rèn)最擅長(zhǎng)聲音辨別的選手孫亦廷,引發(fā)了一些媒體的追蹤報(bào)道,我們驚喜的同時(shí)也發(fā)現(xiàn)有些文章的報(bào)道是不準(zhǔn)確的,這種漫無(wú)邊際的夸大實(shí)質(zhì)上對(duì)百度口碑是不利的。我們始終應(yīng)該清晰的認(rèn)識(shí)到:人工智能經(jīng)過(guò)半個(gè)多世紀(jì)的起起伏伏,到如今開始落地到應(yīng)用場(chǎng)景,確實(shí)是一件非常令人興奮的事情,但這不代表著人工智能就真的智能了,并且超越人類了。事實(shí)上,這才只是剛剛開始,人工智能還有很長(zhǎng)的路要走。

1、小度聲紋識(shí)別挑戰(zhàn)的是深度學(xué)習(xí),繞過(guò)了物理感知的難題

我們先看“最強(qiáng)大腦”比賽中設(shè)定的場(chǎng)景,首先由嘉賓周杰倫在21位專業(yè)合唱團(tuán)成員中任選三位歌唱者,并與其進(jìn)行現(xiàn)場(chǎng)通話,通話錄音被截取成片段,然后人機(jī)共同根據(jù)這些通話片段,在隨后的合唱表演中一次找出這三位歌唱者。這其中有一個(gè)小插曲,周杰倫在介紹環(huán)節(jié)讓觀眾和其他嘉賓現(xiàn)場(chǎng)去試驗(yàn),沒(méi)有觀眾能從合唱中正確辨別出缺少了哪位歌唱者,這其實(shí)是根本不公平的?,F(xiàn)場(chǎng)觀眾聽(tīng)到的是演播室場(chǎng)景下通過(guò)音響系統(tǒng)擴(kuò)放的聲音,這些聲音受到了建筑環(huán)境、音響系統(tǒng)的多次污染,而且是混音后的聲音,其難度完全挑戰(zhàn)了物理極限。但是真實(shí)比賽中,從電視畫面的場(chǎng)景分析來(lái)看其實(shí)完全不是這個(gè)情況,“最強(qiáng)大腦”節(jié)目組所設(shè)定的難度和追求的理念在實(shí)際執(zhí)行過(guò)程中是大大折扣了,這非常容易產(chǎn)生誤導(dǎo)。

詳解聲紋識(shí)別:如何正確評(píng)價(jià)小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨(dú)家解析

詳解聲紋識(shí)別:如何正確評(píng)價(jià)小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨(dú)家解析

我們從兩幅視頻截圖中可以看出,每位歌唱者面前都擺放了獨(dú)立的麥克風(fēng),這種麥克風(fēng)從外觀來(lái)看動(dòng)圈式的可能性更大,動(dòng)圈式麥克風(fēng)的靈敏度要低于電容麥克風(fēng),其可拾取的聲音頻段也不如電容麥克風(fēng)。動(dòng)圈式麥克風(fēng)常常應(yīng)用于舞臺(tái)錄音,主要就是為了避免噪聲干擾。并且,孫亦廷面前擺放了21個(gè)按鍵可以放大任意一位演唱者的聲音,同時(shí)孫亦廷也是戴著耳罩式耳機(jī)來(lái)聽(tīng)聲音。

因此節(jié)目組特意安排的這種聲學(xué)場(chǎng)景布局就產(chǎn)生了兩個(gè)疑問(wèn):

  • 其一:每個(gè)歌唱者的聲音其實(shí)是單獨(dú)錄制的,不存在每個(gè)歌唱者之間的互相干擾和現(xiàn)場(chǎng)噪音干擾的問(wèn)題,而孫亦廷聽(tīng)到的聲音和現(xiàn)場(chǎng)觀眾聽(tīng)到的聲音,以及電視面前各位聽(tīng)到的聲音也是不一樣的。

孫亦廷聽(tīng)到的聲音是每位合唱者的獨(dú)立音軌通過(guò)演播室音響系統(tǒng)混音后的聲音(這也有待于確認(rèn)混音方法),至于孫亦廷的耳機(jī)是否包含音樂(lè)的混音我們還無(wú)法從電視畫面中確認(rèn)。而現(xiàn)場(chǎng)觀眾聽(tīng)到的聲音則會(huì)受到演播室音響擴(kuò)聲系統(tǒng)和演播室建筑聲學(xué)設(shè)計(jì)的嚴(yán)重影響。電視觀眾所聽(tīng)到的聲音還會(huì)受到電視音頻編解碼系統(tǒng)的嚴(yán)重影響。

  • 其二:就是百度的小度機(jī)器人所獲得的音頻是怎樣的?若是直接獲取到21個(gè)歌唱者的獨(dú)立音軌,則就完全繞過(guò)了物理感知中的所有難題,僅僅只是比拼深度學(xué)習(xí)算法而已。

即便和現(xiàn)場(chǎng)演示一樣也是獲得的混音數(shù)據(jù),由于機(jī)器人可以比人類更方便的放大每一位歌唱者的音頻,也是極大減弱了挑戰(zhàn)的難度,這對(duì)于人類反而不公平了。凡是學(xué)過(guò)信號(hào)處理的同學(xué)都清楚,信號(hào)處理其實(shí)不在意絕對(duì)噪聲的干擾,理想場(chǎng)景的物理世界是不存在的,只要符合“信噪比”這個(gè)指標(biāo)就能滿足機(jī)器處理的要求。

所以有篇文章中所提到的“低質(zhì)量的語(yǔ)音數(shù)據(jù),又要在強(qiáng)噪聲干擾下對(duì)歌唱數(shù)據(jù)進(jìn)行識(shí)別,對(duì)小度來(lái)說(shuō)確實(shí)挑戰(zhàn)很大”這句話實(shí)際上是不準(zhǔn)確的。即便“合唱發(fā)聲差異性極小且互相影響”這句話也不是確定的。小度機(jī)器人聽(tīng)到的聲音,孫亦廷聽(tīng)到的聲音,現(xiàn)場(chǎng)觀眾聽(tīng)到的聲音和電視機(jī)觀眾聽(tīng)到的聲音其實(shí)都是不一樣的,而且這個(gè)難度也是逐漸增加的。后面兩種聲音其實(shí)才是真正的挑戰(zhàn)極限,而且這兩種極限挑戰(zhàn)還存在無(wú)解的問(wèn)題。因?yàn)槲锢硎澜绾腿硕鷻C(jī)理存在一些特性,即便現(xiàn)場(chǎng)觀眾所聽(tīng)到的聲音也有兩個(gè)難點(diǎn)必須考慮到:

(1)演播室音響系統(tǒng),對(duì)于聲音的渲染處理會(huì)損失原始聲音特性或者增強(qiáng)無(wú)關(guān)特性,這將會(huì)加重人耳聽(tīng)到聲音的誤差。

(2)現(xiàn)場(chǎng)聽(tīng)到的聲音,也會(huì)收到演播室的建筑聲學(xué)設(shè)計(jì)和擴(kuò)聲系統(tǒng)設(shè)計(jì)的影響,這其中還包括了聲學(xué)兩個(gè)特殊效應(yīng)的制約:

其一就是哈斯效應(yīng)(Haas effect; Precedence effect),這是一種雙耳心理聲學(xué)效應(yīng),聲音延遲對(duì)人類方向聽(tīng)覺(jué)的影響要比能量大小的影響更大的效應(yīng),故此也被稱為優(yōu)先效應(yīng)。


哈斯效應(yīng)是亥爾姆·哈斯于1949年在他的博士論文中描述的,常常利用哈斯效應(yīng)來(lái)調(diào)整會(huì)場(chǎng)和音樂(lè)廳的聲音和諧。舉個(gè)簡(jiǎn)單的例子,若你到電影院坐到了靠近音箱的位置,那幾乎聽(tīng)到的聲音幾乎都是附近這個(gè)喇叭發(fā)出的了。事實(shí)上現(xiàn)場(chǎng)觀眾根本就無(wú)法區(qū)分21位歌唱者在合唱時(shí)候的差別。



其二就是掩蔽效應(yīng)(Masking Effect),簡(jiǎn)單說(shuō)是環(huán)境中的其他聲音會(huì)使人類聽(tīng)覺(jué)對(duì)某一個(gè)聲音的聽(tīng)力降低。


當(dāng)一個(gè)聲音的強(qiáng)度遠(yuǎn)比另一個(gè)聲音大,當(dāng)大到一定程度而這兩個(gè)聲音同時(shí)存在時(shí),人們只能聽(tīng)到音量更大的那個(gè)聲音存在,而覺(jué)察不到另一個(gè)聲音存在。其中,低頻聲的掩蔽范圍大于高頻聲的掩蔽范圍。也就說(shuō),現(xiàn)場(chǎng)觀眾可能根本就無(wú)法辨認(rèn)出到底有幾個(gè)歌唱者的聲音,何談再?gòu)闹凶R(shí)別出特征了。

當(dāng)然還有更多物理定律和聲學(xué)模型的制約,即便上面的哈斯效應(yīng)和掩蔽效應(yīng)實(shí)際上也造成了現(xiàn)場(chǎng)聽(tīng)眾可能無(wú)解的情況,因?yàn)榭赡軌焊蜎](méi)有獲取到所需要的物理信號(hào)。這對(duì)于電視機(jī)前面的觀眾就更為苛刻了,因?yàn)榧幢銛?shù)字電視的音頻編解碼也是有損壓縮的,這實(shí)際上又損失了眾多聲學(xué)特征信息,不管是MP3還是AAC都利用了人耳的掩蔽效應(yīng)進(jìn)行了壓縮,何況電視在家里的擺放同樣也無(wú)法避免建筑聲學(xué)和音響系統(tǒng)的制約。

因此,“最強(qiáng)大腦”節(jié)目組所追求的難度和效果實(shí)際上在執(zhí)行過(guò)程中已經(jīng)嚴(yán)重折扣了,這次比賽更是考驗(yàn)深度學(xué)習(xí)算法和人腦識(shí)別的差異,而刻意回避了物理感知中的難題,和深度學(xué)習(xí)在測(cè)試集的測(cè)試結(jié)果沒(méi)有本質(zhì)上的差別。

事實(shí)上,百度科學(xué)家對(duì)于這個(gè)問(wèn)題是清晰認(rèn)識(shí)的,百度語(yǔ)音識(shí)別技術(shù)負(fù)責(zé)人李先剛坦言:

就現(xiàn)在的深度學(xué)習(xí)或者相關(guān)技術(shù)來(lái)說(shuō),處理同一個(gè)麥克風(fēng)捕捉的多人同時(shí)說(shuō)話的數(shù)據(jù)確實(shí)很難做,還有很多地方值得我們?nèi)ヌ魬?zhàn)。但就實(shí)際應(yīng)用場(chǎng)景來(lái)說(shuō),有其他方法可以較好地解決該問(wèn)題,比如強(qiáng)化定位,正如人有兩個(gè)耳朵可以定位聲音源,在實(shí)際應(yīng)用中我們可以采用多個(gè)麥克風(fēng)來(lái)加強(qiáng)目標(biāo)聲源的聲音,這樣就能較好地分辨目標(biāo)聲源和周圍嘈雜。

吳恩達(dá)老師也表示,此次百度在CES上推出的小魚(Little Fish)機(jī)器人中配置了2個(gè)麥克風(fēng),可以一定程度解決多人說(shuō)話的問(wèn)題,未來(lái)還可以用4個(gè)、7個(gè)甚至更多麥克風(fēng)來(lái)處理該問(wèn)題。這也正是為何我們聲智科技一直追求提升聲學(xué)傳感技術(shù)的原因所在。

因此,這里小結(jié)一下,以觀眾所感受的難度來(lái)描述實(shí)際挑戰(zhàn)的難度是有夸大成分的,夸大宣傳會(huì)誤解大家對(duì)于技術(shù)發(fā)展的正確認(rèn)知,從而拉大了人們預(yù)期,這對(duì)于國(guó)內(nèi)的研究和產(chǎn)業(yè)進(jìn)步都是非常不利的。我們從國(guó)外媒體中所看到的文章,其風(fēng)格相比國(guó)內(nèi)都是比較嚴(yán)肅保守的,包括極其風(fēng)光的谷歌和亞馬遜,谷歌選用AlphaGo挑戰(zhàn)圍棋非常聰明,避過(guò)了人工智能的缺點(diǎn),即便如此也仍然非常謹(jǐn)慎。亞馬遜的Echo其實(shí)已經(jīng)非常成功了,但是Echo幾乎不提語(yǔ)音識(shí)別率的問(wèn)題,即便對(duì)于遠(yuǎn)場(chǎng)識(shí)別尤為關(guān)鍵的麥克風(fēng)陣列也是排在了次要位置甚少?gòu)?qiáng)調(diào),這都是非常聰明的。因?yàn)榧夹g(shù)的發(fā)展還遠(yuǎn)沒(méi)有達(dá)到國(guó)內(nèi)宣傳所夸大的程度。

另外還要補(bǔ)充說(shuō)下聰明的蘋果,大家不要忽視了這位低調(diào)的巨頭,Siri積累了那么多年,優(yōu)勢(shì)是在近場(chǎng)語(yǔ)音交互,而智能耳機(jī)就是最好的落地,蘋果并沒(méi)有缺席人工智能,也不會(huì)錯(cuò)過(guò)下一個(gè)計(jì)算平臺(tái),而是悄悄的把握住了另外一個(gè)巨大的市場(chǎng)機(jī)會(huì)。

2、孫亦廷的挑戰(zhàn)更大,小度機(jī)器人也展現(xiàn)了百度深度學(xué)習(xí)的水平

綜合上面分析來(lái)看,若電視場(chǎng)景中所表現(xiàn)出來(lái)的和實(shí)際工作過(guò)程都是準(zhǔn)確如實(shí)的(抱歉畢竟只是娛樂(lè)節(jié)目,而不是公開論文可驗(yàn)證,谷歌的AlphaGo再次聰明的避過(guò)了這個(gè)驗(yàn)證難題),孫亦廷其實(shí)面臨的難度要超過(guò)百度的小度機(jī)器人,若公平來(lái)說(shuō),人類和機(jī)器人所面臨的挑戰(zhàn)難度都是極大的,百度的小度機(jī)器人也展現(xiàn)出來(lái)了吳恩達(dá)老師帶領(lǐng)百度人工智能團(tuán)隊(duì)領(lǐng)先的水平。

這個(gè)挑戰(zhàn)最大的難度在于:節(jié)目組設(shè)計(jì)的挑戰(zhàn)是從片段的說(shuō)話聲中辨認(rèn)出歌唱者。周杰倫給3個(gè)歌唱者的對(duì)話都是比較簡(jiǎn)短的,而且這個(gè)對(duì)話又被簡(jiǎn)單處理了(只是截取,和加密也沒(méi)啥關(guān)系),我們從愛(ài)奇藝的視頻中抽取了這三段視頻,其聲紋特征如下(非現(xiàn)場(chǎng)原始音頻,已經(jīng)被壓縮很大,僅供參考):

詳解聲紋識(shí)別:如何正確評(píng)價(jià)小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨(dú)家解析

從圖中可以看出,三個(gè)人的聲紋特征差異還是非常明顯的。但是這僅僅只是說(shuō)話的聲紋,大部分唱歌的聲音和說(shuō)話的聲音都是不同的。我在雷鋒網(wǎng)《聲紋識(shí)別技術(shù)的現(xiàn)狀、局限與趨勢(shì)》公開課中提到過(guò),聲紋識(shí)別的理論基礎(chǔ)是每一個(gè)聲音都具有獨(dú)特的特征,通過(guò)該特征能將不同人的聲音進(jìn)行有效的區(qū)分,這種獨(dú)特的特征主要由兩個(gè)因素決定:

第一個(gè)是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。因此不同的人雖然說(shuō)同樣的話,但是聲音的頻率分布是不同的,聽(tīng)起來(lái)有的低沉有的洪亮。每個(gè)人的發(fā)聲腔都是不同的,就像指紋一樣,每個(gè)人的聲音也就有獨(dú)特的特征。

第二個(gè)決定聲音特征的因素是發(fā)聲器官被操縱的方式,發(fā)聲器官包括唇、齒、舌、軟腭及腭肌肉等,他們之間相互作用就會(huì)產(chǎn)生清晰的語(yǔ)音。而他們之間的協(xié)作方式是人通過(guò)后天與周圍人的交流中隨機(jī)學(xué)習(xí)到的。人在學(xué)習(xí)說(shuō)話的過(guò)程中,通過(guò)模擬周圍不同人的說(shuō)話方式,就會(huì)逐漸形成自己的聲紋特征。

顯然,說(shuō)話和唱歌的時(shí)候無(wú)法改變?nèi)祟惏l(fā)聲的器官,這也是聲紋識(shí)別挑戰(zhàn)所能辨認(rèn)的基礎(chǔ),否則真就成了Mission Impossible。但是人類操縱發(fā)聲器官的方式是不同的,這就是很大的難度。和上面的方法一樣,我們也將第一位歌唱者的說(shuō)話片段和唱歌片段從愛(ài)奇藝視頻中抽取如下: 

詳解聲紋識(shí)別:如何正確評(píng)價(jià)小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨(dú)家解析

從圖中仍然可以看出,歌唱者說(shuō)話和唱歌的聲紋沒(méi)有本質(zhì)的差別,但是對(duì)于基于深度學(xué)習(xí)技術(shù)的小度機(jī)器人來(lái)說(shuō),這項(xiàng)挑戰(zhàn)確實(shí)難度是極大的。節(jié)目中截取后的錄音片段,一整條語(yǔ)音不超過(guò)10個(gè)字,有效時(shí)間小于 3s,而且斷斷續(xù)續(xù),這容易造成聲紋特征的缺失。更加困難的是,必須從這有限的數(shù)據(jù)中推斷出唱歌時(shí)候的聲紋是否匹配。

之所以說(shuō)孫亦廷的挑戰(zhàn)更大,是因?yàn)槌巳祟愖陨砀兄洃浀娜毕荩€有就是孫亦廷必須手動(dòng)按鍵來(lái)放大聲音進(jìn)行比對(duì)確認(rèn),這個(gè)過(guò)程是必不可少的,而上面提到了,小度機(jī)器人的處理方式肯定要比人類更簡(jiǎn)單,否則也沒(méi)有必要在每個(gè)歌唱者面前放置麥克風(fēng)。

另外,百度IDL實(shí)驗(yàn)室主任林元慶的描述還欠缺一些關(guān)鍵信息:“在此基礎(chǔ)上,我們收集少量的,比如1000個(gè)人在特殊場(chǎng)景下的聲音,比如說(shuō)唱歌。在比賽之前我們知道有唱歌內(nèi)容,但是不知道要唱什么歌,于是去收集一些歌來(lái)訓(xùn)練模型,讓模型能夠更準(zhǔn)確的識(shí)別說(shuō)話和唱歌時(shí)的聲音差異?!?/p>

這沒(méi)有準(zhǔn)確說(shuō)出這次訓(xùn)練的數(shù)據(jù)來(lái)源是不是包含了21位歌唱者的唱歌數(shù)據(jù),這非常關(guān)鍵,孫亦廷很難同時(shí)記憶21位歌唱者的唱歌聲紋,但如果機(jī)器事先訓(xùn)練了,則事實(shí)上比人類提前積累了特征數(shù)據(jù)。

詳解聲紋識(shí)別:如何正確評(píng)價(jià)小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨(dú)家解析

這里小結(jié)一下:百度小度機(jī)器人的挑戰(zhàn)難度確實(shí)是很大的,也展現(xiàn)出了百度在吳恩達(dá)老師帶領(lǐng)下深度學(xué)習(xí)的積累和水平,但是相對(duì)于Google的AlphaGo來(lái)說(shuō)還是欠缺一些說(shuō)服力,百度應(yīng)該公開可以測(cè)試或者應(yīng)用的技術(shù),而不僅僅只在娛樂(lè)節(jié)目中展現(xiàn)技術(shù)水平。當(dāng)然節(jié)目組可以繼續(xù)加大這項(xiàng)節(jié)目挑戰(zhàn)的難度,比如將21個(gè)人增加到100個(gè)人,同時(shí)考慮人聲的差異分布,還可以考慮加入現(xiàn)場(chǎng)的影響等等。

3、計(jì)算機(jī)識(shí)別能力超過(guò)人類毋庸置疑,但仍然有局限性

我們知道,機(jī)器的計(jì)算和存儲(chǔ)能力都已經(jīng)超越了人類,識(shí)別能力超過(guò)人類也是毋庸置疑的事情。但是當(dāng)前的語(yǔ)音識(shí)別能力還沒(méi)有全面超越人類,至于遠(yuǎn)場(chǎng)的語(yǔ)音識(shí)別,因?yàn)檫€涉及了物理世界模型的問(wèn)題,這個(gè)過(guò)程更加長(zhǎng)遠(yuǎn)一些。我們估計(jì),憑借現(xiàn)在數(shù)據(jù)的增長(zhǎng)和新算法的迭代,3~5年內(nèi)出現(xiàn)人類普遍應(yīng)用的語(yǔ)音交互產(chǎn)品還是很有可能的。至于圖像識(shí)別,從當(dāng)前ImageNet的測(cè)試來(lái)看,從樣本測(cè)試精度已經(jīng)超過(guò)了人類,但是若落地到實(shí)際場(chǎng)景,這個(gè)方面機(jī)器相比人類還有非常大的差距,比如大家經(jīng)常忽略了圖像識(shí)別的核心攝像頭光學(xué)模組,而到當(dāng)前為止,我們的核心光學(xué)模組還都是國(guó)外所供應(yīng)的。

人工智能時(shí)代,是不是可以邁過(guò)PC時(shí)代和移動(dòng)時(shí)代的局限,不再是從器件、芯片、OS、算法清一色的國(guó)外技術(shù),而真正誕生出我們國(guó)家自己的核心技術(shù)?我們期望著國(guó)內(nèi)的研究機(jī)構(gòu)和巨頭公司能在基礎(chǔ)研究和核心技術(shù)上積累優(yōu)勢(shì),而在模式營(yíng)銷少花點(diǎn)精力,也不要浪費(fèi)資源搶占創(chuàng)業(yè)公司的應(yīng)用類小市場(chǎng),因?yàn)榫揞^的對(duì)手應(yīng)該是國(guó)外的Google、Facebook、Apple、Tesla等等這些雄心改變?nèi)祟惖木揞^。

理念和價(jià)值觀決定了一家公司的走向,賺錢不是成功唯一的標(biāo)準(zhǔn),貢獻(xiàn)一點(diǎn)為人類發(fā)展有價(jià)值的事情,即便失敗了也是值得懷念和歷史記憶的,這也是我?guī)е值軅兂鰜?lái)創(chuàng)業(yè)的核心動(dòng)力。

4、單憑計(jì)算機(jī)領(lǐng)域的進(jìn)步無(wú)法完全解決物理世界的問(wèn)題

深度學(xué)習(xí)帶給了我們無(wú)限的想象力,但是我們仰望星空的同時(shí),也要腳踏實(shí)地,正確認(rèn)識(shí)計(jì)算機(jī)進(jìn)步帶給我們的便利和局限。計(jì)算機(jī)學(xué)科的方法論進(jìn)步,其實(shí)沒(méi)有改變這個(gè)世界的物理模型,也不代表計(jì)算機(jī)領(lǐng)域的符號(hào)主義就此衰落,因?yàn)樯疃葘W(xué)習(xí)的舉萬(wàn)反一和人類的舉一反三還是背道而馳的。深度學(xué)習(xí)更應(yīng)該結(jié)合符號(hào)表示和推理模型融合發(fā)展,只不過(guò)這是喜馬拉雅山的北坡,技術(shù)的難度更加巨大。

現(xiàn)在的深度學(xué)習(xí)確實(shí)帶來(lái)了極大的進(jìn)步,主要是在識(shí)別領(lǐng)域的突飛猛進(jìn),因?yàn)槲锢硌芯靠偸窍肱靼住盀槭裁础?,然后再?jù)此構(gòu)建模型和推理。但是現(xiàn)在深度學(xué)習(xí)幾乎不用花費(fèi)精力探討這個(gè)問(wèn)題,只要擁有了海量數(shù)據(jù),不必關(guān)心“為什么”,也不用深究特征,數(shù)據(jù)的規(guī)模和精度才是關(guān)鍵。從這個(gè)層面來(lái)看,我們就能非常容易理解這種方法的局限,深度學(xué)習(xí)當(dāng)前還僅適用具有確定的規(guī)則和目標(biāo),并且基于現(xiàn)有知識(shí)結(jié)構(gòu),其答案也是封閉鏈條的場(chǎng)景,也就是我們常常提到的一些垂直場(chǎng)景。從這個(gè)層面來(lái)看,通用的語(yǔ)音識(shí)別就存在極大的不確定性,很難達(dá)到人類的程度,而且語(yǔ)義理解(NLP)顯然僅僅依靠大數(shù)據(jù)和深度學(xué)習(xí)是無(wú)法解決理解人類語(yǔ)言問(wèn)題的。

但是未來(lái)終究是人工智能的時(shí)代,因此建議投身于人工智能領(lǐng)域的廣大學(xué)子,除了奉獻(xiàn)于計(jì)算機(jī)的進(jìn)步,也要關(guān)注物理領(lǐng)域的進(jìn)展,圖靈獎(jiǎng)和諾貝獎(jiǎng)都是推動(dòng)這個(gè)世界進(jìn)步的動(dòng)力,而未來(lái)更多的獎(jiǎng)項(xiàng)應(yīng)該是我們中國(guó)學(xué)子的。

最后,我想用張鈸院士的一句話作為總結(jié):

五十年后的事情可能我說(shuō)不清楚,但是我可以說(shuō)說(shuō)三五年之后的事情。很多人說(shuō)究竟現(xiàn)在是人工智能的春天還是夏天?有人說(shuō)春天,因?yàn)檎谂畈l(fā)展。有人說(shuō)夏天,因?yàn)橛悬c(diǎn)熱過(guò)頭了。但是我說(shuō)現(xiàn)在是人工智能的秋天。秋天有兩個(gè)含義:一是秋天是收獲的季節(jié),我們有很多成果。二是說(shuō)秋天,是因?yàn)槎炀驮谇邦^。

雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

詳解聲紋識(shí)別:如何正確評(píng)價(jià)小度在最強(qiáng)大腦中戰(zhàn)平人類?|獨(dú)家解析

分享:
相關(guān)文章

專欄作者

聲智科技創(chuàng)始人兼CEO,中科院聲學(xué)所博士
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)