3
本文作者: 何忞 | 2016-12-20 07:10 |
雷鋒網(wǎng)按:如果說(shuō)到在機(jī)器學(xué)習(xí)領(lǐng)域領(lǐng)先的公司,想必你不會(huì)忽略谷歌。從谷歌翻譯到從機(jī)器視覺(jué),谷歌一直努力將機(jī)器學(xué)習(xí)應(yīng)用于可能想象的任何地方。本文會(huì)講三個(gè)故事,它們?cè)?Google 翻譯向 AI 的成功轉(zhuǎn)型中整合在了一起:一個(gè)技術(shù)故事,一個(gè)制度故事和一個(gè)關(guān)于思想演變的故事。本文源自紐約時(shí)報(bào),作者 Gideon Lewis-Kraus,雷鋒網(wǎng)編譯,未經(jīng)許可不得轉(zhuǎn)載。
如果對(duì)前情不太熟悉的讀者,歡迎點(diǎn)擊閱讀《谷歌大腦是如何煉成的:萬(wàn)字無(wú)刪減版全解密》系列:(一)和(二)。
谷歌大腦團(tuán)隊(duì)現(xiàn)在大約有 100 個(gè)成員,他們經(jīng)常覺(jué)得自己不是在一個(gè)有等級(jí)區(qū)分的部門(mén),而是在一個(gè)俱樂(lè)部、一個(gè)學(xué)術(shù)社區(qū)或是一個(gè)小酒吧,這個(gè)谷歌公司中最自由的部門(mén)經(jīng)常受到其他部門(mén)羨慕的眼光。谷歌大腦被安排在公司園區(qū)西北邊緣的一個(gè)兩層的蛋殼結(jié)構(gòu)的炭灰色建筑中,巨大的窗戶可以看到遠(yuǎn)處的山景。他們的小廚房里有一個(gè)游戲足球桌,一個(gè)搖滾樂(lè)隊(duì)游戲機(jī),一個(gè) Go Kit,但是都很少有人使用這些。(但是我有次看到一個(gè)年輕的助理研究員在向他的同事介紹如何把一個(gè)菠蘿蜜像切火雞一樣切開(kāi))
六月份我在谷歌大腦的辦公室時(shí),看到一些空桌子,但是其中的大部分都有便利貼寫(xiě)著諸如“Jesse,6/27”的字眼,到現(xiàn)在幾乎所有位置都滿了。當(dāng)我第一次訪問(wèn)他們的時(shí)候,停車還很方便,最近的位置提供給孕婦和特斯拉汽車,其他空閑的位置還很多。但是十月份的時(shí)候,如果我 9:30 以后才來(lái),就不得不在馬路對(duì)面找車位了。
谷歌大腦部門(mén)的增長(zhǎng)讓 Dean 有點(diǎn)擔(dān)心公司是否可以滿足這樣的需求。他想避免發(fā)生所謂的“成功災(zāi)難”——即公司的理論容量超過(guò)了實(shí)踐中執(zhí)行任務(wù)的能力,人手不夠。所以某天他進(jìn)行了一些簡(jiǎn)單計(jì)算后,給經(jīng)理做了一個(gè)兩頁(yè) PPT 的展示:“如果未來(lái)每個(gè)人每天對(duì)自己的安卓手機(jī)說(shuō)三分鐘的話,那我們得需要多少機(jī)器?。∥覀兛赡艿脤⑽覀兊挠?jì)算空間加倍甚至加三倍。”Dean 用夸張的表情說(shuō),“這聽(tīng)起來(lái)很恐怖,但是我們不得不這么做?!彼q豫了一下,結(jié)果是“需要建立新的架構(gòu)”。
但是,他們還有另一個(gè)選擇:設(shè)計(jì)、批量生產(chǎn)一種新的芯片,安裝進(jìn)分散式數(shù)據(jù)中心,加快運(yùn)算速度,這種新的芯片叫做 T.P.U.(tensor processing units)。并且一反常態(tài)地主張使用比普通芯片精確度更低的芯片。他們不再計(jì)算 12.236 乘以 54.392,而是給出近似的 12 乘以 54 的答案。在數(shù)學(xué)的角度看,神經(jīng)網(wǎng)絡(luò)就是一種結(jié)構(gòu)化的成百上千上億的矩陣乘法的連續(xù)結(jié)果,所以過(guò)程的速度比精確度更重要。Dean 說(shuō)道:“通常專用硬件不是個(gè)好想法,它經(jīng)常只能加速一個(gè)東西,但是因?yàn)樯窠?jīng)網(wǎng)絡(luò)的一般性,你可以使用專有硬件來(lái)加速很多東西。”
就在芯片設(shè)計(jì)階段即將完成的時(shí)候,Le 和其他兩個(gè)同事終于證明了神經(jīng)網(wǎng)絡(luò)可以通過(guò)設(shè)定來(lái)解決語(yǔ)言結(jié)構(gòu)問(wèn)題,他提出了一個(gè)想法,叫做“放棄詞向量”(word embeddings)。這個(gè)想法耗費(fèi)了他超過(guò) 10 年的時(shí)間。當(dāng)你概括一個(gè)圖像的時(shí)候,你可以預(yù)測(cè)出圖像概述的每一個(gè)階段,比如一條邊,一個(gè)圓,等等。當(dāng)你用同樣的方法去概括一種語(yǔ)言的時(shí)候,實(shí)質(zhì)上你是基于日常用法,建立出一個(gè)詞與其他的詞之間的多維距離地圖。而機(jī)器不像我們使用語(yǔ)言學(xué)規(guī)則去分析數(shù)據(jù),不是將詞語(yǔ)分成名詞、動(dòng)詞等,機(jī)器會(huì)將詞語(yǔ)平移、扭曲、變形后放進(jìn)那個(gè)地圖中。
其實(shí)在二維中,這個(gè)地圖并沒(méi)有用。比如說(shuō),你想要將“貓”放在“狗”附近,但是你也想把“貓”放在“尾巴”、“高傲”和“喵喵”附近,因?yàn)槟阆氚迅柏垺庇嘘P(guān)的不管距離遠(yuǎn)近的詞語(yǔ)全部囊括在內(nèi)。只有這些詞在不同維度上與一個(gè)詞相關(guān)時(shí),我們才可以同時(shí)將他們關(guān)聯(lián)在一起。當(dāng)然,你無(wú)法輕易地做出一個(gè) 160,000 個(gè)維度的地圖,但是你卻可以很好地掌握一門(mén)擁有一千個(gè)維度的語(yǔ)言。換句話說(shuō),語(yǔ)言就是一個(gè)用包含一千個(gè)數(shù)字的表格指派每一個(gè)詞語(yǔ)的過(guò)程。想象這種多維地圖其實(shí)很困難,因?yàn)槲覀冋娴暮茈y再一個(gè)三維空間中看到一個(gè)一千維的向量。
接著,特定的維度就可以表示人類顯性的分類,比如性別、身材。如果你用 1000 個(gè)表示“國(guó)王”的數(shù)字,減去 1000 個(gè)表示“王后”的數(shù)字,得到的結(jié)果應(yīng)該和“男人”減去“女人”一樣。如果你可以獲得英語(yǔ)語(yǔ)言的全部空間和法語(yǔ)語(yǔ)言的全部空間,理論上,你可以訓(xùn)練一個(gè)網(wǎng)絡(luò)如何將一種語(yǔ)言等價(jià)地放入另一種語(yǔ)言。你只需要給機(jī)器無(wú)數(shù)的英文句子作為輸入,相對(duì)應(yīng)的法語(yǔ)句子作為輸出,經(jīng)過(guò)一些時(shí)間的學(xué)習(xí),機(jī)器就會(huì)識(shí)別出詞語(yǔ)的模式,就如同圖像分類器在像素水平上分辨圖像一樣。最終,你就可以給機(jī)器一個(gè)英文句子,命令他輸出匹配最佳的法語(yǔ)句子。
但是,詞語(yǔ)和像素的主要區(qū)別在于,所有圖像里的像素只出現(xiàn)一次,但詞語(yǔ)卻會(huì)隨著時(shí)間連續(xù)出現(xiàn)。網(wǎng)絡(luò)需要一個(gè)方法來(lái)“存儲(chǔ)”這個(gè)時(shí)間序列的連續(xù)過(guò)程,即從第一個(gè)詞到最后一個(gè)詞的路徑。2014年9月的一周,Le 和兩個(gè)來(lái)自加拿大和德國(guó)的學(xué)者發(fā)表了三篇論文,最終提供了解決這一問(wèn)題的必要理論工具。他們的研究說(shuō)明了端口開(kāi)放項(xiàng)目(如谷歌大腦的 Magenta)如何生產(chǎn)藝術(shù)和音樂(lè)。也為工具性任務(wù),如機(jī)器翻譯指明了道路。Hinton 告訴我說(shuō),他認(rèn)為這些后續(xù)工作可以至少還需要5年以上的時(shí)間。
Le 的論文說(shuō)明了神經(jīng)網(wǎng)絡(luò)翻譯似乎是合理的,但是他只使用了一個(gè)小的相關(guān)公共數(shù)據(jù)集(只是對(duì)谷歌而言比較小,它其實(shí)是世界上最大的公共數(shù)據(jù)集。但是舊翻譯器在十年間收集的生產(chǎn)數(shù)據(jù)比這個(gè)數(shù)據(jù)集大 100 到 1000 倍)。更重要的是,Le 的模型在超過(guò) 7 個(gè)詞語(yǔ)的長(zhǎng)句中表現(xiàn)不佳。
彼時(shí)的谷歌大腦科學(xué)家 Mike Schuster 接過(guò)了接力棒。他知道,如果谷歌沒(méi)有找到將理論轉(zhuǎn)化為產(chǎn)品的方法,其他人就會(huì)搶先找到。這個(gè)項(xiàng)目花費(fèi)了他兩年時(shí)間。Schuster 說(shuō):“你想當(dāng)然地以為,翻譯無(wú)非是將數(shù)據(jù)輸入,運(yùn)行程序,輸出結(jié)果,但實(shí)際上并不是這樣?!?/p>
Schuster 是一個(gè)嚴(yán)謹(jǐn)專注,似乎歲月并沒(méi)有在他身上留下痕跡。他的頭又黑又小,肩膀很窄,常常穿著一條迷彩短褲和一雙 Nike 運(yùn)動(dòng)鞋。他看起來(lái)就像是那種剛剛從打坐中醒來(lái),戴上他小小的橢圓無(wú)邊框眼鏡,隨便吃點(diǎn)堅(jiān)果,然后順便在上班路上完成了沙漠十項(xiàng)全能的人。他告訴我說(shuō),從家到公司騎自行車“只有” 18 英里的路程。Schuster 在前西德的杜伊斯堡長(zhǎng)大,學(xué)習(xí)的專業(yè)是電子工程,后來(lái)又搬到日本京都從事早期的神經(jīng)網(wǎng)絡(luò)工作。90 年代,他在一個(gè)跟會(huì)議室一樣大的神經(jīng)網(wǎng)絡(luò)機(jī)器上做實(shí)驗(yàn),這個(gè)機(jī)器造價(jià)百萬(wàn)美元,并且需要經(jīng)過(guò)數(shù)周的訓(xùn)練才能完成如今只需要在筆記本上訓(xùn)練一小時(shí)就能實(shí)現(xiàn)的任務(wù)。他在1997年發(fā)表過(guò)一篇論文,15 年來(lái)很少有人引用,但今年卻被引用了 150 次左右。Schuster 并不是沒(méi)有幽默感,但是他的對(duì)話經(jīng)常帶有一些粗暴感,我覺(jué)得這是他身上一種標(biāo)志性的德國(guó)式和日本式克制精神的結(jié)合。
Schuster 要解決的問(wèn)題非常復(fù)雜。一方面,Le 的代碼是自定義編寫(xiě)的,與谷歌的開(kāi)源機(jī)器學(xué)習(xí)平臺(tái)(后來(lái)發(fā)展成 TensorFlow)不兼容。2015年秋天,Dean 給 Schuster 介紹了另外兩個(gè)工程師:Yonghui Wu 和 Zhifeng Chen。他們花了兩個(gè)月時(shí)間在新系統(tǒng)中重新復(fù)寫(xiě)了Le 的結(jié)果。Le 其實(shí)也在旁邊,但是即是是他自己也不能弄清楚他們所做的工作。正如 Schuster 所說(shuō),“有些東西我們也沒(méi)有完全理解,他們自己也不知道為什么這樣做。”
今年二月,谷歌的研究組織(公司的一個(gè)非正式組織,大約有1000人)在豪華的舊金山聯(lián)合廣場(chǎng)圣弗蘭西斯威斯汀酒店舉行了一場(chǎng)“靜修會(huì)”。會(huì)議的上午進(jìn)行了多輪閃電會(huì)談,快速地更新了研究前沿問(wèn)題,下午則進(jìn)行了跨部門(mén)的促進(jìn)討論,會(huì)議希望這種靜修可以提供一個(gè)機(jī)會(huì),讓這種無(wú)法預(yù)測(cè)的、貝爾實(shí)驗(yàn)室式的交流幫助一個(gè)成熟的公司保持高產(chǎn)。
午飯的時(shí)候,Corrado 和 Dean 在找Google Translate 的主管 Macduff Hughes,當(dāng)時(shí) Hughes 正在獨(dú)自一人吃飯,然后這兩個(gè)谷歌大腦的成員突然就坐在了他的兩邊,就像 Corrado 說(shuō)的,“我們伏擊了他”?!捌鋵?shí),” Corrado 對(duì)警惕的 Hughes 說(shuō),“我們有些事情想告訴你?!彼麄兏嬖V Hughes,考慮到有超過(guò)10年的數(shù)百個(gè)工程師的程序代碼和一個(gè)神經(jīng)網(wǎng)絡(luò),2016年對(duì) Google Translate來(lái)說(shuō)似乎是一個(gè)徹底大翻修的好時(shí)機(jī)。原有的機(jī)器翻譯系統(tǒng)已經(jīng)工作了30年,它隔離每一個(gè)連續(xù)的句子片段,在一個(gè)大型統(tǒng)計(jì)派生詞匯表中查詢所有單詞,然后使用后處理原則加上合適的后綴,再重新組合使句意明確。這種方法叫做“基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯法”。因?yàn)橄到y(tǒng)是一個(gè)一個(gè)部分進(jìn)行翻譯,所以它并不知道哪個(gè)是最后一個(gè),因此很多時(shí)候你會(huì)覺(jué)得翻譯的句子結(jié)構(gòu)混亂。谷歌大腦替代原有翻譯機(jī)器后,可以直接一次翻譯整個(gè)句子,把握句子內(nèi)容,理解句子意思。
這個(gè)賭注可能很低:翻譯產(chǎn)生的利潤(rùn)甚微,并且可能永遠(yuǎn)如此。對(duì)于大多數(shù)英語(yǔ)母語(yǔ)使用者而言,相比于一個(gè)期待的漸進(jìn)式進(jìn)步,服務(wù)產(chǎn)品性能上即使是一個(gè)巨大的更新,也很難激起人們的贊賞。但是發(fā)明一個(gè)能與人類媲美的機(jī)器翻譯并不只有短期內(nèi)的必要性,更多的是長(zhǎng)遠(yuǎn)角度的轉(zhuǎn)型式發(fā)展。在不久的將來(lái),這對(duì)公司戰(zhàn)略發(fā)展來(lái)說(shuō)至關(guān)重要。谷歌估計(jì) 50% 的網(wǎng)絡(luò)顯示的是世界上 20% 的人使用的英語(yǔ)語(yǔ)言。如果谷歌想要在中國(guó)市場(chǎng)(該市場(chǎng)中搜索引擎絕的大多數(shù)市場(chǎng)份額屬于其競(jìng)爭(zhēng)對(duì)手百度),或在印度市場(chǎng)競(jìng)爭(zhēng),合適的機(jī)器翻譯是基礎(chǔ)設(shè)施中不可或缺的部分。百度也在2015年7月發(fā)布了一個(gè)關(guān)于神經(jīng)機(jī)器翻譯可能性的突破性文章。
并且在更遠(yuǎn)的未來(lái),我們可以推理出,機(jī)器翻譯可能是在通用計(jì)算機(jī)設(shè)備上使用人類語(yǔ)言的第一步。這也許代表著一個(gè)巨大的轉(zhuǎn)折點(diǎn)——科技的發(fā)展中可能出現(xiàn)了真正的人工智能。
硅谷中的大多數(shù)人都認(rèn)為機(jī)器學(xué)習(xí)的發(fā)展快要接近地平線了,所以 Hughes 看到了這個(gè)伏擊點(diǎn)的到來(lái),他對(duì)此保持懷疑態(tài)度。Hughes,一個(gè)的溫和的強(qiáng)壯的中年男人,他的頭發(fā)是雜亂的棕色,鬢角也有些灰白,是一個(gè)典型的線路工程師,在1970年的波音公司里,絕不會(huì)離開(kāi)他的繪圖臺(tái)。他的牛仔褲口袋里感覺(jué)裝滿了笨拙而奇怪的工具,就好像他正在用卷尺和電熱偶繪制電路。他跟年輕人不一樣,他明白谷歌里很多人在很多部門(mén)都嘗試過(guò)神經(jīng)網(wǎng)絡(luò)翻譯的工作,想要把實(shí)驗(yàn)結(jié)果變?yōu)閷?shí)際產(chǎn)品,但是很多年來(lái),大多數(shù)結(jié)果都是徒勞無(wú)功。
Hughes 聽(tīng)了他們的想法,最后非常謹(jǐn)慎地說(shuō),“聽(tīng)起來(lái)這件事好像能在三年內(nèi)完成。”
但是 Dean 的想法不同:“如果我們?nèi)褙炞?,可以在今年?nèi)完成它?!比藗兿矚g、贊賞 Dean 的一個(gè)原因就是他可以長(zhǎng)時(shí)間地全神貫注在一件事情上,另一個(gè)原因就是他在說(shuō)“如果我們?nèi)褙炞⒂诖恕钡臅r(shí)候真誠(chéng)得一點(diǎn)也不尷尬。
Hughes 確信這個(gè)轉(zhuǎn)變不會(huì)很快發(fā)生,但是他本人也不在乎真的“全神貫注于此”。所以他轉(zhuǎn)身對(duì)他的團(tuán)隊(duì)說(shuō),“讓我們?yōu)?016年做準(zhǔn)備吧,我不想成為那個(gè)說(shuō) Jeff Dean 不能保證速度的人?!?/p>
一個(gè)月以后,他們終于做出了一個(gè) Schuster 的新系統(tǒng)和 Hughes 的舊系統(tǒng)的對(duì)比試驗(yàn)。Schuster 想要實(shí)驗(yàn)英法互譯,但是 Hughes 建議他試試別的。他說(shuō),“英語(yǔ)—法語(yǔ)互譯的過(guò)程已經(jīng)很完善了,系統(tǒng)的改進(jìn)不會(huì)太明顯?!?/p>
有一個(gè)困難 Schuster 無(wú)法克服。評(píng)價(jià)機(jī)器翻譯的基準(zhǔn)度量叫做 BLEU 分?jǐn)?shù),方法是比較機(jī)器翻譯和平均水平的人工翻譯的結(jié)果。當(dāng)時(shí),英法互譯的最高 BLEU 分?jǐn)?shù)是20。1分的進(jìn)步被視為非常好,2分的的進(jìn)步被視為非常杰出。神經(jīng)網(wǎng)絡(luò)在英法互譯對(duì)中比原有系統(tǒng)提升了7分。Hughes 告訴 Schuster 的團(tuán)隊(duì)說(shuō),他們的系統(tǒng)在過(guò)去四年中的進(jìn)步都沒(méi)有這次的一半多。為了確定這不是測(cè)量上的一些巧合,他們也讓一些讀者來(lái)做對(duì)比試驗(yàn)。讀者感知分?jǐn)?shù)(0—6分)也顯示出平均進(jìn)步0.4分——這差不多是原有系統(tǒng)整個(gè)生命周期內(nèi)的進(jìn)步分?jǐn)?shù)。
三月中旬,Hughes 給他的團(tuán)隊(duì)發(fā)了一封電子郵件,寫(xiě)道:舊系統(tǒng)的所有項(xiàng)目立即暫停。
(圖中右邊的是Quoc Le,左邊的是 Mike Schuster)
這是本文的第三部分,敬請(qǐng)期待雷鋒網(wǎng)出品的第四部分。
via nytimes
【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無(wú)人駕駛、VR/AR、Fintech、未來(lái)醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國(guó)際新聞、具有一定的科技新聞選題能力,翻譯及寫(xiě)作能力優(yōu)良的外翻編輯加入。
簡(jiǎn)歷投遞至 wudexin@leiphone.com,工作地 北京。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。