0
本文作者: 肖漫 | 2019-05-16 19:26 |
【 圖片來源:Microsoft Research Blog 所有者:Microsoft Research Blog 】
雷鋒網(wǎng)按:上一次你和你的電腦進(jìn)行有意義的對(duì)話,并且感受到它能真正地理解你,是什么時(shí)候呢?如果微軟技術(shù)研究員、微軟的語言語音小組組長黃學(xué)東博士做到了的話,那么你也將可以做到。并且,如果他以往的研究真的達(dá)到了他所說的水平的話,這一天到到來可能要比你想的還要快。
黃學(xué)東教授在播客中談了談他作為微軟首席語音技術(shù)科學(xué)家的工作內(nèi)容,告訴我們一些關(guān)于語言語音技術(shù)最新的里程碑的內(nèi)部細(xì)節(jié),以及說明掌握語音識(shí)別、翻譯、交流是如何讓機(jī)器在從“感知人工智能”到“認(rèn)知人工智能”轉(zhuǎn)變的路上走得更遠(yuǎn),和語音識(shí)別、翻譯、交流有多接近真正的人類智能。雷鋒網(wǎng)全文編譯如下。
主持人:黃學(xué)東,歡迎來到微軟的播客節(jié)目。
黃學(xué)東:謝謝。
主持人:您是語言語音小組的微軟技術(shù)研究人員,還領(lǐng)導(dǎo)著微軟的口語工作,我們稍后會(huì)進(jìn)行深入探討。但首先,作為微軟的首席語音科學(xué)家,先簡單告訴一下我們您做了些什么,以及為什么要做這些事情。讓您每天起床的動(dòng)力是什么?
黃學(xué)東:好的,我們現(xiàn)在所做的事是確保我們有最好的語音語言技術(shù)能被應(yīng)用到更廣的領(lǐng)域。我們之所以有個(gè)團(tuán)隊(duì)去做這件事,是因?yàn)槲矣X得這不僅是人類最自然的交流方式,而且這還是我們現(xiàn)在面對(duì)的最艱難的人工智能挑戰(zhàn)。這就是我們所做的,在我們的云端 Azure Services 上嘗試去真正突破,去提供出色的服務(wù),以及確保我們能讓微軟的客戶和微軟之外的客戶滿意。如果你想要框定整個(gè)事情,主要有三個(gè)方面。
首先,我們有能力去驅(qū)動(dòng)語音識(shí)別的準(zhǔn)確性,去驅(qū)動(dòng)合成工作的自然性,當(dāng)你把英語翻譯成漢語、法語,德語的時(shí)候,去確保翻譯質(zhì)量是精確的。因此,有很多科學(xué)家在背后去確定這些精確性、自然性以及潛在因素,他們是世界一流的科學(xué)家。這是第一方面。
第二方面是,我們不僅提供技術(shù),我們還在Azure上提供服務(wù)。從Office 到Windows,Cortana,它們都依賴著同一個(gè)云服務(wù)。不僅如此,我們還有邊緣設(shè)備,像我們的語音設(shè)備SDK。因此,我們想要確保在邊緣設(shè)備和在云端上的語音技術(shù)都是以現(xiàn)代的方式進(jìn)行的。這是第二方面:平臺(tái)是現(xiàn)代化的。
第三方面是對(duì)消費(fèi)者展現(xiàn)愛意,因?yàn)槲覀冊(cè)谌驌碛袕V泛的客戶。我們想讓消費(fèi)者高興,想讓我們的消費(fèi)者體驗(yàn)到他們使用的語音翻譯是一流的。
這就是我實(shí)際上主要做的三件事:提升AI 的能力,使我們?cè)谠贫撕驮谶吘壴O(shè)備上的平臺(tái)現(xiàn)代化,愛我們的顧客。
主持人:嗯。您有很多團(tuán)隊(duì)在這些小組中工作,來解決我們稱之為“支柱”的問題。
黃學(xué)東:是的,我們?cè)谑澜绺鞯囟加袌F(tuán)隊(duì)。并且,這些團(tuán)隊(duì)的多樣性是很驚人的,因?yàn)槲覀冊(cè)趪L試克服語言障礙。因此,我們?cè)谥袊袌F(tuán)隊(duì),在德國、以色列、印度、美國同樣也有。我們的工作遍布全球,嘗試著去應(yīng)對(duì)這些語言挑戰(zhàn)。
主持人:我想先引用您的話為我們的今天的談話做準(zhǔn)備。您說過,“語音語言技術(shù)是鑲在 AI 皇冠上的明珠?!睘槲覀冋f明一下吧。
黃學(xué)東:嗯,好的。我們可以從人類進(jìn)化的范疇來思考。在某個(gè)時(shí)期,語言誕生了,它加速了人類進(jìn)化。如果你想想這個(gè)星球上的所有動(dòng)物,就像你知道的,有很多動(dòng)物跑的比人類快,視力比人類好······
主持人:它們的牙齒也很鋒利。
黃學(xué)東:尤其是在晚上。
主持人:它們很強(qiáng)大。
黃學(xué)東:是的。它們聽的比人類遠(yuǎn),嗅覺比人類靈敏,但是,只有人類擁有語言。我們能夠很好的去組織,能夠用科幻小說的術(shù)語去描述,能夠自我組織,能夠?qū)懗鲆徊繎椃?。如果你看到人類的這些方面,你就會(huì)知道,是語音和語言將我們和其他動(dòng)物區(qū)別開的。對(duì)人工智能來說,語音語言技術(shù)能夠驅(qū)動(dòng)人工智能進(jìn)化,就像它驅(qū)動(dòng)人類進(jìn)化那樣。這就是為什么它是鑲在人工智能的皇冠上的明珠。而且它還是堅(jiān)硬的那顆,難以破壞。
主持人:是的。有一個(gè)關(guān)于這個(gè)話題的哲學(xué)性討論,但它引出了一些有趣的問題。如果您在機(jī)器語言上取得了很大的成功,那么,這些機(jī)器會(huì)是什么呢?
黃學(xué)東:讓我們發(fā)揮一點(diǎn)想象力。在某些時(shí)候,我們說計(jì)算機(jī)能夠理解三百種語言,還能夠流利地交流和對(duì)話。我還沒遇到能夠說三百種語言的人。而且,機(jī)器不僅能夠流利地交流和對(duì)話,還能夠領(lǐng)會(huì)、理解、學(xué)習(xí)、推論以及能夠在所有科目上都能拿到博士學(xué)位。這種知識(shí)的獲取、推論超過了任何人的個(gè)人能力。當(dāng)這一刻到來的時(shí)候,你可以想象人工智能將會(huì)有多聰明。
主持人:這是您想象出來的東西嗎?
黃學(xué)東:是的。
主持人:我們想要那樣嗎?
黃學(xué)東:是的。我覺得這個(gè)世界能夠成為一個(gè)更好的世界。幾個(gè)星期前我在日本,帶著裝在移動(dòng)設(shè)備上的微軟翻譯器,我能夠和不會(huì)說中文或英語的日本人交流。微軟翻譯器能夠說一些我不會(huì)說的語言,當(dāng)我在日本的時(shí)候,它能幫助我變得更有效率。
主持人:我完全同意。一想到這個(gè)機(jī)器,我就有點(diǎn)害怕。“我們不是第一個(gè),不是最后一個(gè),我們只是下一個(gè)······”
黃學(xué)東:但是,這個(gè)智能有兩個(gè)層次。第一個(gè)層次是感知智能,它能看,能聽,能聞。緊接著高層次的是認(rèn)知智能。我們今天所取得的人工智能的突破,大多是在感知層面,例如語音識(shí)別、語音合成、計(jì)算機(jī)視覺。但是在高級(jí)推理和知識(shí)獲取這些認(rèn)知能力上,人工智能距離人類的水平還很遠(yuǎn)。并且,最令我感到振奮的是翻譯器,它是一種介于感知智能和認(rèn)知智能的物體。事實(shí)上,我們能夠在感知智能的基礎(chǔ)上取得成功,并擴(kuò)展到認(rèn)知智能,這是一個(gè)相當(dāng)漫長的過程。我不知道我們什么時(shí)候能夠到達(dá)那個(gè)里程碑。但是那一天正在靠近了,這只是時(shí)間問題。它可能還要五十年,但我認(rèn)為這是會(huì)發(fā)生的。
主持人:因?yàn)槲覀儸F(xiàn)在談到一些里程碑,我們將在另一個(gè)博客中詳細(xì)討論。但現(xiàn)在,首先我想要回顧一下,在 Rick Rashid 成立組織以及建立第一個(gè)語音小組的時(shí)候,您已經(jīng)在微軟研究院工作一段時(shí)間了。根據(jù)MSR的傳說,這個(gè)小組的目標(biāo)就是“讓語音成為主流”,請(qǐng)簡要的告訴我們一些關(guān)于在 MSR 的語音歷史。這個(gè)研究是怎么從早期的“不主流”“敢于冒險(xiǎn),放眼未來”到今天幾乎出現(xiàn)在微軟的每一個(gè)產(chǎn)品中的?
黃學(xué)東:在我加入微軟之前,我曾是匹茲堡 CMU 的教員。當(dāng)時(shí),RickRashid 是那里的教授,我是一名初級(jí)教員。我的語音研究主要是在 CMU 開展的。后來,微軟和我接觸,他們想要建立一個(gè)語音研究的小組。因此,在1993年的第一天,在新年休假之后,我轉(zhuǎn)移了。我從匹茲堡飛到西雅圖,開始了這段從未改變的旅程。這就是微軟語音研究的開始。我們是開始為開發(fā)者帶來語音技術(shù)的研究團(tuán)隊(duì)。
主持人:嗯。
黃學(xué)東:所以…
主持人:所以不再只是特別深?yuàn)W的純理論研究
黃學(xué)東:對(duì),不是特別深?yuàn)W的純理論研究。我們從 CMU 獲得技術(shù)許可,我們就是這樣開始的。我們非常感謝 CMU 在這個(gè)領(lǐng)域上的開創(chuàng)性研究。我們是一個(gè)研究團(tuán)隊(duì),但是我們?cè)赪indows ’95上發(fā)布了了第一個(gè)語音API, SAPI。作為一個(gè)研究團(tuán)隊(duì),我們相當(dāng)自豪,因?yàn)橥ǔ5难芯恐皇沁M(jìn)行特別深?yuàn)W的純理論研究。我們不僅進(jìn)行特別深?yuàn)W的純理論研究,繼續(xù)挑戰(zhàn)極限,繼續(xù)提高認(rèn)知的精確性,我們還和 Windows 合作,把那些科技帶給 Windows 開發(fā)者。SAPI 是業(yè)界第一個(gè)基于 Windows 的語音API。
主持人:哇!
黃學(xué)東:這是一個(gè)相當(dāng)漫長的過程。緊接著,我?guī)е业膱F(tuán)隊(duì)最終離開了研究部門,加入了產(chǎn)品小組。我?guī)е鴪F(tuán)隊(duì)到了產(chǎn)品小組,與我同行的還有一個(gè)優(yōu)秀的微軟語音研究小組。這是我在微軟27年的精彩經(jīng)歷。2004年,在我們發(fā)布了語音服務(wù)器之后,我停止了語音研究,我開始做很多事情,包括啟動(dòng)研究孵化。當(dāng) Satya Nadella 運(yùn)營 Bing 時(shí),我曾擔(dān)任建筑師。
然后,當(dāng) Harry 管理研究和技術(shù)小組時(shí),我?guī)椭趸艘幌盗腥斯ぶ悄茼?xiàng)目,像GPU集群,Project Philly,深度學(xué)習(xí)工具包 CNTK 等基礎(chǔ)項(xiàng)目。大概三年前,我有幸回來管理了一個(gè)結(jié)合語音和語言的小組?;旧?,我們能夠整合所有語音和翻譯的資源。這就是我的故事,我的經(jīng)歷,精彩的 27 年。
主持人:現(xiàn)在語音語言研究是在哪里進(jìn)行?
黃學(xué)東:就像我說的,我們?cè)谘芯啃〗M和產(chǎn)品小組之間來回移動(dòng)了很多次。現(xiàn)在,我們?cè)谠贫撕腿斯ぶ悄苄〗M,這是一個(gè)產(chǎn)品小組。我們是這些云服務(wù)的一部分,并且,我們提供了整個(gè)公司和整個(gè)行業(yè)范疇的語音翻譯服務(wù)。我們也有進(jìn)行語音和對(duì)話研究,他們運(yùn)行的像個(gè)研究小組。
黃學(xué)東:他們都是那個(gè)小組的研究人員。就像 Rick 說過的,科研成果轉(zhuǎn)化是一個(gè)需要各部門配合的事。在我們微軟這兒,其實(shí)已經(jīng)不僅僅是各部門緊密配合,我們就是整個(gè)一體的。
主持人:在研究模式上仍然具有前瞻性….
黃學(xué)東:既有前瞻性,又有充分依據(jù)。我們必須腳踏實(shí)地地提供服務(wù),從基礎(chǔ)設(shè)施到服務(wù)成本,還必須站在高處去展望未來,去定義人們需要的、想要的解決方法是什么,即使現(xiàn)在這個(gè)解決方法可能不存在,或者他們可能還不知道是什么。
主持人:我們來具體談?wù)勀懊嫣峒暗降难芯坷锍瘫_@應(yīng)該會(huì)很有趣。您剛剛涉及到三個(gè)領(lǐng)域:對(duì)話式語音識(shí)別,機(jī)器翻譯以及對(duì)話問答。讓我們從對(duì)話式語音識(shí)別開始。在 2016 年,您領(lǐng)導(dǎo)了一個(gè)團(tuán)隊(duì),在抄錄對(duì)話語音上達(dá)到了能和人類媲美的歷史水平。跟我們說說吧,它是什么的一部分,是如何產(chǎn)生的?
黃學(xué)東:在 2016 年,我們?cè)趶V泛使用交換機(jī)會(huì)話轉(zhuǎn)錄任務(wù)上達(dá)到了和人類媲美的水平。這項(xiàng)任務(wù)在研究界和工業(yè)界可能已經(jīng)使用了十多年。在 2017 年,我們重新定義了這個(gè)里程碑,要達(dá)到能夠和人類媲美的水平。在轉(zhuǎn)錄任務(wù)上,我們不是簡單地和一個(gè)人在競爭,我們是和一群人競爭。我想說,2017 年是一個(gè)歷史性的時(shí)刻。將微軟語音堆棧和各個(gè)小組的人進(jìn)行比較,轉(zhuǎn)錄相同任務(wù),它的表現(xiàn)優(yōu)于這四個(gè)小組的總和。當(dāng)我用它挑戰(zhàn)我們的研究小組的時(shí)候,沒有人想到它可能勝出。但是令人驚訝的是,在不到兩年的時(shí)間里,在我們有了信念,有了資源,有了焦點(diǎn)的時(shí)候,奇跡真的發(fā)生了。這對(duì)團(tuán)隊(duì),對(duì)科學(xué),對(duì)技術(shù)堆棧來說都是一個(gè)美妙的時(shí)刻。這是我個(gè)人職業(yè)生涯中第一個(gè)能夠達(dá)到與人類相媲美的水平的里程碑。
主持人:我都想對(duì)該領(lǐng)域做一翻研究了,您剛剛所說的這些都非常有趣:在兩年的時(shí)間里,沒有人相信這件事能夠?qū)崿F(xiàn),然而你們最終成功做到了。還請(qǐng)您給我們分享更多關(guān)于如何讓語音轉(zhuǎn)錄實(shí)現(xiàn)人類水平的技術(shù)層面的東西。
黃學(xué)東:所以,如果你查看一下語音研究歷史,就能發(fā)現(xiàn)很多被后人反復(fù)使用的突破性成果都是由我們這個(gè)語音研究組所開創(chuàng)的。以翻譯為例,在上世紀(jì) 70 年代早期,即便是在語音研究領(lǐng)域,語音識(shí)別更多使用的還是傳統(tǒng) AI ,例如基于規(guī)則的方法、專家系統(tǒng)等。
IBM Watson 在研究中開創(chuàng)地提出統(tǒng)計(jì)語音識(shí)別方法,使用隱馬爾可夫模型以及統(tǒng)計(jì)語言模型來實(shí)現(xiàn)語音識(shí)別,極大地推動(dòng)了該領(lǐng)域的發(fā)展。因而,這也成為了語音領(lǐng)域的一個(gè)高光時(shí)刻。之后,來自 IBM 同一個(gè)語言研究組的研究者們又將語音識(shí)別所采用的這一思路應(yīng)用到了翻譯中,真正實(shí)質(zhì)性地提高了翻譯質(zhì)量,再次改寫了翻譯歷史!
隱馬爾可夫模型之后,語音識(shí)別領(lǐng)域開始使用深度學(xué)習(xí)方法,即神經(jīng)語音識(shí)別。于是,翻譯再一次汲取神經(jīng)語音識(shí)別的思路,開始使用神經(jīng)機(jī)器翻譯的方法,讓整個(gè)翻譯領(lǐng)域再度獲得進(jìn)展。所以你可以從中看到其他領(lǐng)域利用語音領(lǐng)域研究者所開創(chuàng)的技術(shù)的鏡像。實(shí)際上,語音領(lǐng)域的研究者們一直在引領(lǐng)著技術(shù)的開創(chuàng)性進(jìn)展,比如眾所周知的由 DARPA 創(chuàng)建的系統(tǒng)基礎(chǔ)測試,就采用了非常嚴(yán)格的評(píng)估標(biāo)準(zhǔn),真正改變了科學(xué)以及工程的評(píng)估方式。
主持人:是的。
黃學(xué)東:實(shí)際上,語音語言技術(shù)能給語音以外的其他領(lǐng)域帶來了很多可以廣泛利用的經(jīng)驗(yàn)。所以,我們一直在訓(xùn)練研究團(tuán)隊(duì)來處理艱巨的問題,這樣看來,我們的同一個(gè)研究團(tuán)隊(duì)實(shí)現(xiàn)了這些歷史性的里程碑也就不足為奇了。
主持人:好,接下來讓我們來聊一下另一個(gè)里程碑:在 WMT-2017 的中英文新聞自動(dòng)翻譯任務(wù)中實(shí)現(xiàn)人類水平。對(duì)此,我在訪談節(jié)目中還跟 Arul Menezes聊了下關(guān)于這項(xiàng)成果的所有事情。但是我還是了解一下您怎樣看待以及是否認(rèn)為現(xiàn)在機(jī)器翻譯可以媲美傳統(tǒng)的人工翻譯?以及為什么這項(xiàng)成果對(duì)于打破人類和文化間的壁壘而言,是一項(xiàng)重要的突破性進(jìn)展?
黃學(xué)東:我的研究團(tuán)隊(duì)所取得第二個(gè)實(shí)現(xiàn)人類水平的突破性成果同樣也令人興奮。正如我所說的,交換臺(tái)會(huì)話語音(Switchboard Conversational Speech)轉(zhuǎn)錄就是一個(gè)偉大的里程碑。但是它確實(shí)還處于非常低級(jí)的水平,即還處于感知 AI 的水平。而翻譯則是一項(xiàng)介于感知 AI 和認(rèn)知 AI 之間的任務(wù)。當(dāng)然,翻譯是一項(xiàng)難度更大的任務(wù),并且也沒有人相信我們能夠取得這樣的成果。因而我們?cè)O(shè)立了一個(gè)目標(biāo):在五年時(shí)間內(nèi),看看我們能否讓機(jī)器在句子級(jí)別的基礎(chǔ)翻譯任務(wù)上實(shí)現(xiàn)人類水平。所以我也非常想在這里向大家分享這個(gè)故事。當(dāng)人類如你如我在翻譯時(shí),我們會(huì)去看句子的整個(gè)段落,從而也有更加寬廣的上下文語境,我們的翻譯工作也做得更好。相對(duì)于廣泛意義上的翻譯,WMT 中對(duì)人類的水平有一些限制,因?yàn)樗槍?duì)的只是句子級(jí)別的新聞翻譯。
主持人:嗯哼。
黃學(xué)東:所以,我們所開展的其實(shí)是一個(gè)廣泛開放的研究——公共基準(zhǔn)測試。即便是這樣,我們認(rèn)為也可能需要花費(fèi)五年時(shí)間。所以,我們采用了同樣的原則:基于交換臺(tái)語音識(shí)別轉(zhuǎn)錄的成果來開展研究。但是實(shí)際上這一次,我們對(duì)這一步有所超越。由于任務(wù)是將中文翻譯成英文,因此我們與微軟在北京的研究團(tuán)隊(duì)一起合作。所以,跨越了太平洋的多個(gè)微軟亞洲研究院團(tuán)隊(duì)在數(shù)個(gè)日日夜夜中展開了合作研究。令人驚訝的是,這群研究者給所有人都帶來了驚喜:我們?cè)诓坏揭荒甑臅r(shí)間內(nèi)就實(shí)現(xiàn)了這一目標(biāo),讓機(jī)器翻譯實(shí)現(xiàn)了人類水平,這也是機(jī)器所實(shí)現(xiàn)的歷史最佳翻譯水平,同時(shí),經(jīng)我們的科學(xué)家評(píng)估,其比專業(yè)翻譯人員在同一任務(wù)上的表現(xiàn)更加出色。這一刻,我們真的創(chuàng)造出了奇跡。我為該研究團(tuán)隊(duì)以及這次合作感到無比自豪。
主持人:我非常想聊聊您的另一個(gè)非常有意思的研究成果,也就是您稱作 COQA 的問答數(shù)據(jù)挑戰(zhàn)賽。顯而易見,我們?cè)谡務(wù)摰木褪悄軌蚋覀冞M(jìn)行問答對(duì)話的計(jì)算機(jī)。請(qǐng)你給我們分享一下,這一在語音識(shí)別技術(shù)中最像人類或者說難度最大的任務(wù),接下來要開展的工作是什么?
黃學(xué)東:COQA 問答數(shù)據(jù)挑戰(zhàn)賽是由斯坦福大學(xué)的研究者開創(chuàng)的一項(xiàng)比賽,它甚至與認(rèn)知 AI 要更接近些,它實(shí)際上是一個(gè)涵蓋了會(huì)話、對(duì)話以及相關(guān)任務(wù)的機(jī)器閱讀任務(wù)。假設(shè)你在閱讀某段文字,然后讓讀者挑戰(zhàn)正確回答一連串相關(guān)的問題。例如,如果你閱讀了一段關(guān)于比爾蓋茨的文字,第一個(gè)問題有可能就是:“誰是微軟的創(chuàng)立者?”第二個(gè)問題則會(huì)與第一個(gè)問題相關(guān):“此人在創(chuàng)立微軟時(shí)年齡多大?”之后的問題可能是:“當(dāng)此人退休時(shí),他年齡多大?”所以,上下文的相關(guān)性比簡單的機(jī)器閱讀要難,因?yàn)樾枰慊卮鹨贿B串與給定上下文相關(guān)的問題。
因此,對(duì)于這一最新突破,我必須重點(diǎn)向我們?cè)诒本┭芯繉?shí)驗(yàn)室的同事們表達(dá)我的贊賞。同時(shí),我們也一直在利用共享的資源和基礎(chǔ)設(shè)置來共同開展這一開創(chuàng)性的研究工作,這真的很棒。同時(shí),我們完成這項(xiàng)驚人的會(huì)話問答挑戰(zhàn)賽的敏捷度以及速度,都讓我印象時(shí)刻。其中的主力研究者現(xiàn)在都在北京,而他們也將在幫助微軟再一次在這項(xiàng)廣受關(guān)注的 AI 任務(wù)上首度實(shí)現(xiàn)人類水平中,扮演重要的支柱性的角色。沒有人會(huì)相信有人能夠在如此短的時(shí)間內(nèi)在這項(xiàng)傳統(tǒng)的 Q&A 任務(wù)上實(shí)現(xiàn)人類水平。因此,雖然我們一開始預(yù)想這一目標(biāo)要花費(fèi)2年時(shí)間,但是最終,我們?cè)僖淮未蚱屏藲v史記錄。
主持人:我們已經(jīng)聊了一些關(guān)于你正在開展的研究工作以及如何開展的偏技術(shù)的話題。對(duì)于如何開展相關(guān)研究工作,您是否還有任何能夠用來攻克這一 Q&A 任務(wù)的其他方法論或技術(shù)?
黃學(xué)東:微軟在 AI 領(lǐng)域已經(jīng)積累了長達(dá)三十年的研究經(jīng)驗(yàn),不是嗎?微軟在北京的自然語言研究組在過去的二十年時(shí)間里,也一直在研究 Q&A 任務(wù),他們?cè)诜e淀了很多先天優(yōu)勢(shì)的同時(shí),也積累了很多經(jīng)驗(yàn)。同時(shí),我們基本上使用深度學(xué)習(xí)和遷移學(xué)習(xí)來完成Q&A任務(wù)。因此,我們的成功是基于整個(gè)研究領(lǐng)域的成果所獲得的。
主持人:嗯嗯。
黃學(xué)東:就比如說谷歌發(fā)布了一項(xiàng)特別棒的技術(shù)——BERT......
主持人:BERT是字母縮寫嗎?
黃學(xué)東:是字母縮寫,它是一項(xiàng)嵌入技術(shù)。我們的研究成果就以這項(xiàng)技術(shù)為基礎(chǔ)進(jìn)行了延展,因此我們的成功也有它的一份功勞。這也是我們能夠取得機(jī)器翻譯實(shí)現(xiàn)人類水平這一突破的方法。
主持人:嗯嗯。
黃學(xué)東:這其實(shí)也是整個(gè)研究領(lǐng)域的一個(gè)映像。我剛剛所談到的微軟亞洲研究院團(tuán)隊(duì)與其在美國的團(tuán)隊(duì)之間的合作,實(shí)際上更是整個(gè)工業(yè)界之間合作的一個(gè)范例。
(音樂響起)
主持人:您在節(jié)目中向我們所描繪的這些都非常令人興奮:在一切事情朝著正確的方向發(fā)展之后,一旦成功,我們就必須去解決那些有可能朝著錯(cuò)誤方向發(fā)展的事情。
黃學(xué)東:是的。
主持人:您希望計(jì)算機(jī)能夠聽、聽見、說話、翻譯、回答問題以及最基本地,與人類進(jìn)行交流。那是否有什么事情讓您感到焦慮?
黃學(xué)東:完全有。實(shí)際上我的擔(dān)憂就是,未來某一天人類會(huì)太過依賴于 AI。然而 AI 永遠(yuǎn)都不可能變得完美無缺,它會(huì)帶有一系列獨(dú)特的偏見。因此,我非常擔(dān)憂這一人類無法發(fā)覺的影響。
主持人:贊同。
黃學(xué)東:所以如何應(yīng)對(duì)這一擔(dān)憂,實(shí)際上是我們需要意識(shí)到并且亟需解決的廣泛的社會(huì)議題。因?yàn)檎缥覀兠總€(gè)人一樣,一旦我們擁有一個(gè)我們依賴的助手,我們就完全能夠了解到這個(gè)助手給我們帶來的影響有多大:他會(huì)改變你的議程,甚至改變你的觀點(diǎn)。而 AI 終有一天將會(huì)扮演與助手相同的角色。我現(xiàn)在最擔(dān)憂的莫過于怎樣解決 AI 的偏見問題。
主持人:是的。
黃學(xué)東:如果一切順利發(fā)展,這個(gè)問題必將真正成為我們必須應(yīng)對(duì)的重要議題。我們需要學(xué)會(huì)解決這一問題。而現(xiàn)在我們還不知道怎么解決,則是因?yàn)槲覀儸F(xiàn)在還沒到那一步。
主持人:因此,您在創(chuàng)建這些能夠說話、傾聽以及交談的工具時(shí),就將“設(shè)計(jì)思維(design thinking)”引入其中,因?yàn)樽钪匾氖虑橹痪褪侨祟愑心芰⑷祟惖钠焚|(zhì)轉(zhuǎn)嫁到非人類的事物中......
黃學(xué)東:我只能相信,現(xiàn)在研究 AI 的研究者們有足夠的責(zé)任感。好消息就是,我們現(xiàn)在還沒到那一步,不是嗎?所以,我們還有時(shí)間來共同應(yīng)對(duì)這一挑戰(zhàn),并確信 AI 將會(huì)真正朝著服務(wù)人類而不是毀滅人類的方向發(fā)展。這就是現(xiàn)在最大的擔(dān)憂......
主持人:是的。
黃學(xué)東:......這也是現(xiàn)在讓我保持清醒的問題。但是我短期的擔(dān)憂其實(shí)是:AI 還不夠好!至少現(xiàn)在還不夠好!
主持人:明白。
黃學(xué)東:正如比爾蓋茨常常提到的,人們總是高估我們?cè)诙唐趦?nèi)能做的事,而低估這些事情所帶來的長遠(yuǎn)影響。在這件事情上,我們不能低估它的長遠(yuǎn)影響。
主持人:是的。
黃學(xué)東:長遠(yuǎn)的里程碑。
主持人:了解。接下來是故事時(shí)間。
黃學(xué)東:嗯,不錯(cuò)!
主持人:能分享下您個(gè)人相關(guān)的故事嗎?是什么讓您對(duì)尤其是語音、語言技術(shù)領(lǐng)域的研究感興趣?以及能否分享下您加入微軟的歷程?
黃學(xué)東:好的。我畢業(yè)于北京的清華大學(xué),當(dāng)時(shí)我的第一臺(tái)電腦是Apple2。你可能也了解,中文語言很難被輸入到電腦上,所以輸入過程非常繁瑣。因此,我堅(jiān)信實(shí)現(xiàn)語音識(shí)別非常有必要。當(dāng)時(shí),我作為清華一名研究生,夢(mèng)想其實(shí)就是在 AI 領(lǐng)域做研究。同時(shí),當(dāng)時(shí)清華研究生院的 AI......
主持人:是的。
黃學(xué)東:......不可思議地匯聚了一大批教授和科教人員,他們都有著長遠(yuǎn)的見解,并為我們創(chuàng)造了開拓性的探索和實(shí)驗(yàn)環(huán)境。因此,我在這里接著完成了我的博士學(xué)位。自1982年被清華錄取后,我就加入了一個(gè)博士項(xiàng)目,并且一直從事語音識(shí)別的研究工作。讓人類真正與機(jī)器交流變得更簡單這個(gè)夢(mèng)想,在我的世界從未消失。迄今為止,我在語音識(shí)別上的研究生涯已走過了30 多個(gè)春秋。即便在微軟工作的一段短期時(shí)間里,我曾暫停語音方面的研究工作,但我從事的研究工作依舊是與語音相關(guān)的。所以,我打心底里認(rèn)為,這是我與語音研究之間的一個(gè)非常美妙的故事。而我個(gè)人也在這個(gè)過程中收獲了很多有趣的經(jīng)歷。正如我剛剛提到,當(dāng)我在清華大學(xué)上學(xué)的時(shí)候,用中文在計(jì)算機(jī)上打字還是一件非常難的事情,所以在清華博士畢業(yè)后,我去了蘇格蘭的愛丁堡大學(xué)深造......
主持人:了解。
黃學(xué)東:......并在那里獲得了博士學(xué)位。而當(dāng)我第一次進(jìn)入愛丁堡大學(xué)的時(shí)候,我個(gè)人非常痛苦的地方其實(shí)在于——我知道了英式英語的存在,因?yàn)橹袊蟛糠值挠⒄Z都是美式英語。然而由于英式英語并非我的母語,所以這對(duì)我來說,并不是很“吃香”。并且我聽蘇格蘭教授講課......
主持人:噢,天哪!
黃學(xué)東:......真的非常具有挑戰(zhàn)性。不過非常感謝 BBC 關(guān)掉了字幕。
主持人:有趣。
黃學(xué)東:所以我是通過看 BBC 真正學(xué)會(huì)了蘇格蘭英語。并且我必須要提到的是,現(xiàn)在微軟的PPT可以使用自動(dòng)顯示字幕的技術(shù)了。那段個(gè)人的痛苦經(jīng)歷對(duì)于微軟的PPT 團(tuán)隊(duì)在研發(fā)這款產(chǎn)品中所考慮的各種功能來說非常具有吸引力,同時(shí)它對(duì)于我個(gè)人而言也是一種很好的獎(jiǎng)賞。
主持人:是的。
黃學(xué)東:我非常開心能夠看到我研究出來的技術(shù)成果能夠幫助更多將前往蘇格蘭大學(xué)求學(xué)的人。
主持人:您也知道,Arul 之前也聊過關(guān)于 PPT .....
黃學(xué)東:是的。
主持人:....的服務(wù),同時(shí)他也提到那些有聽力障礙的人。
黃學(xué)東:嗯嗯。
主持人:現(xiàn)在您賦予了它一個(gè)全新的(意義).....
黃學(xué)東:它更加廣泛.....
主持人:完全是!
黃學(xué)東:......由于語言障礙一直都會(huì)存在,并非每個(gè)人都能流利地用語言表達(dá)。我招待過很多旅游者,基本上每年我都會(huì)招待清華大學(xué)的MBA 學(xué)生,他們也都在學(xué)習(xí)英語,但是他們聽英語和使用英語交流的能力基本上無法跟這里的當(dāng)?shù)厝讼啾?。所以,在PPT 軟件中提供字幕功能,能夠幫助他們所有人......
主持人:是的。
黃學(xué)東:.......更好地學(xué)習(xí)和理解英語。所以,即便沒有翻譯,這個(gè)功能的應(yīng)用場景也非常廣泛。這就是一個(gè)簡單的事實(shí):我們有了字幕,就能加強(qiáng)溝通。
主持人:確實(shí)。之前我們聊過了不同的語言和方言,但是我們還沒有真正探討過語言的口音問題。我是說,即便在美國,即便你是美國當(dāng)?shù)厝?,你去美國的各個(gè)地方都有可能遇到不少難以理解的時(shí)候,這都是由于各個(gè)地方的口音都大不相同。
黃學(xué)東:這也是為什么我的蘇格蘭英語會(huì)變成一個(gè)好故事!同時(shí)我希望我還能保留些蘇格蘭口音。
主持人:我聽得出來您的蘇格蘭口音!在每期博客的最后,我都會(huì)對(duì)邀請(qǐng)嘉賓最后說一句話 。由于您在人類語音技術(shù)領(lǐng)域從事研究,這句話非常適合對(duì)您說。現(xiàn)在,您有機(jī)會(huì)向可能正在致力于讓計(jì)算機(jī)實(shí)現(xiàn)與人類交談和溝通的聽眾說任何您想說的話。他們應(yīng)該從哪里入手研究?
黃學(xué)東:研究語音和語言!它是真正鑲在 AI 皇冠上的明珠。在我看來,AI 領(lǐng)域再?zèng)]有比語音和語言研究更具挑戰(zhàn)性的任務(wù)。尤其是當(dāng)你想要讓感知 AI 發(fā)展到認(rèn)知 AI 時(shí),更是如此。讓機(jī)器獲得推理、理解能力,并通過閱讀、交流獲得知識(shí),便是改善人類生活、提高人類生產(chǎn)效率,讓這個(gè)世界不再有語言、溝通和理解障礙的最基本的研究領(lǐng)域。
主持人:感謝您今天受邀參加我們的博客節(jié)目。您給我們分享的東西真的非常棒。
黃學(xué)東:我的榮幸。
雷鋒網(wǎng)注:本文編譯自Microsoft Research Blog
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。