3
本文作者: 奕欣 | 2016-12-22 07:10 |
雷鋒網(wǎng)按:如果說(shuō)到在機(jī)器學(xué)習(xí)領(lǐng)域領(lǐng)先的公司,想必你不會(huì)忽略谷歌。從谷歌翻譯到從機(jī)器視覺,谷歌一直努力將機(jī)器學(xué)習(xí)應(yīng)用于可能想象的任何地方。本文會(huì)講三個(gè)故事,它們?cè)?Google 翻譯向 AI 的成功轉(zhuǎn)型中整合在了一起:一個(gè)技術(shù)故事,一個(gè)制度故事和一個(gè)關(guān)于思想演變的故事。本文源自紐約時(shí)報(bào),作者Gideon Lewis-Kraus,雷鋒網(wǎng)編譯,未經(jīng)許可不得轉(zhuǎn)載。
如果對(duì)前情不太熟悉的讀者,歡迎點(diǎn)擊閱讀谷歌大腦是如何煉成的:萬(wàn)字無(wú)刪減版全解密(一)和(二)和(三)。
直到那時(shí),神經(jīng)網(wǎng)絡(luò)翻譯團(tuán)隊(duì)也只有三個(gè)人——Schuster、Wu、Chen。但在 Hughes 的支持下,團(tuán)隊(duì)開始聯(lián)合并擴(kuò)大。團(tuán)隊(duì)成員在 Schuster 的要求下,每周三的下午兩點(diǎn)在公司 Quartz Lake 房間會(huì)面。會(huì)議通常輪流由不定的十幾個(gè)人參加。當(dāng) Hughes 和 Corrado 在的時(shí)候,他們通常是“僅存的”兩位英語(yǔ)母語(yǔ)者。工程師們說(shuō)著中文、越南語(yǔ)、波蘭語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)、德語(yǔ)和日語(yǔ),不過(guò)他們更多的是使用自己最有效的混雜語(yǔ)言和數(shù)學(xué)表達(dá)。在谷歌里,并不會(huì)存在有誰(shuí)主導(dǎo)會(huì)議的問(wèn)題,但是在 Schuster 這里?毫無(wú)疑問(wèn)。
即使在那個(gè)時(shí)候,他們也并不清楚需要做些什么。Schuster 有次對(duì)我說(shuō),「整個(gè)事情就是關(guān)于不確定性,不確定性貫穿了整個(gè)過(guò)程,包括軟件、數(shù)據(jù)、硬件、人?!顾煺闺p臂,舉過(guò)肩膀,接著說(shuō),「這就像是在一個(gè)大泥潭中游泳,你只能看見這么一點(diǎn)點(diǎn)?!拐f(shuō)著,他在胸前用手比出 8 英寸的長(zhǎng)度,「我們有個(gè)目標(biāo),也許就在那里吧。」
谷歌大多數(shù)會(huì)議室都有投影儀,空閑時(shí)就會(huì)播放超高清的谷歌公共圖片,比如森林夢(mèng)境、北極光、國(guó)會(huì)大廈等等。Schuster 指著其中一個(gè)——夜里閃光的華盛頓紀(jì)念碑,他說(shuō),「外面的景色就是現(xiàn)在所有人拿望遠(yuǎn)鏡就能看見的范圍?!?/p>
盡管理論工作已經(jīng)耗費(fèi)了他們很多的精力和時(shí)間,但是想要把理論轉(zhuǎn)化為真實(shí)的產(chǎn)品(就是理論科學(xué)家不予考慮的僅僅是一些工程上的部分)也絕非易事。一方面,他們必須確定他們?cè)谑褂谜_的數(shù)據(jù)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。谷歌數(shù)以十億的「閱讀」訓(xùn)練詞匯大都是從中等復(fù)雜度的句子中提取的,比如海明威的作品。有一些是公共領(lǐng)域內(nèi)的,比如原始的羅塞塔石碑語(yǔ)言學(xué)習(xí)軟件中完整的加拿大議會(huì)雙語(yǔ)記錄。還有一些是從 10 年收集的數(shù)據(jù)中調(diào)來(lái)的,包括志愿者們眾包的人工翻譯。團(tuán)隊(duì)的存儲(chǔ)庫(kù)中有大約 9700 萬(wàn)個(gè)不同的英文詞匯。但是一旦他們?nèi)コ楦蟹?、錯(cuò)誤拼寫和冗余部分后,可用的詞匯只有大約 16 萬(wàn)個(gè)。
接著,你需要重新關(guān)注用戶實(shí)際上想要翻譯什么內(nèi)容,很多情況下根本不是完整的句子。谷歌發(fā)現(xiàn),很多人不會(huì)使用翻譯機(jī)器翻譯全文或復(fù)雜的句子,他們只是翻譯碎片化的語(yǔ)言。如果你想要讓神經(jīng)網(wǎng)絡(luò)處理用戶的詢問(wèn),你必須確定輸入內(nèi)容的方向,因?yàn)樯窠?jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練過(guò)的數(shù)據(jù)非常敏感。Hughes 指出,「神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)能學(xué)習(xí)任何它可以學(xué)習(xí)的東西。就像一個(gè)學(xué)習(xí)走路的小孩一樣,『噢,爸爸生氣的時(shí)候說(shuō)的是那個(gè)詞語(yǔ)!』」,他笑著說(shuō),「所以你必須非常小心。」
然而最重要的是,他們需要保證翻譯的整個(gè)過(guò)程可靠而快速,用戶甚至不會(huì)注意到延遲。在二月份的時(shí)候,翻譯包含 10 個(gè)詞的句子需要 10 秒,這個(gè)速度對(duì)他們來(lái)說(shuō)太慢了。所以翻譯團(tuán)隊(duì)開始對(duì)小部分用戶使用偽造的延遲形式進(jìn)行實(shí)驗(yàn),測(cè)試人們的容忍度。他們發(fā)現(xiàn)慢兩倍,甚至慢五倍的時(shí)候,人們都還能忍受,但是慢八倍的時(shí)候,人們就無(wú)法忍受了。他們無(wú)需在所有語(yǔ)言中確認(rèn)這個(gè)結(jié)果。在如法語(yǔ)和中文這種檢索量大的語(yǔ)言中,翻譯速度實(shí)際上并沒有降低。更微妙的一點(diǎn)在于,他們知道用戶如果想要更高質(zhì)量的結(jié)果,就不會(huì)太在意輕微的延遲。他們只是想阻止人們放棄使用谷歌的產(chǎn)品轉(zhuǎn)而使用競(jìng)爭(zhēng)對(duì)手的服務(wù)。
Schuster 承認(rèn)他其實(shí)并不知道他們是否可以將速度提升到足夠快。他還記得在小廚房中跟 Chen 說(shuō)的話:「一定有一些東西可以使它變得更快,但是我不知道到底是什么東西?!?/p>
但是他確實(shí)知道,他們需要更多的計(jì)算機(jī)——「G.P.U.」,一種用來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的圖形處理器。Hughes 跑去問(wèn) Schuster 是怎么想的?!肝覀冃枰暾?qǐng)一千個(gè) G.P.U. 嗎?」Schuster 說(shuō):「為啥不是 2000 個(gè)?」
十天后,他們?cè)黾恿?2000 個(gè)處理器。
今年 4 月為止,三人的團(tuán)隊(duì)已經(jīng)擴(kuò)張到 30 多人,一些人來(lái)自谷歌大腦團(tuán)隊(duì),比如 Le,另一些人則來(lái)自谷歌翻譯團(tuán)隊(duì)。五月份,Hughes 指派了每種語(yǔ)言對(duì)子的臨時(shí)負(fù)責(zé)人,然后所有人都將他們的結(jié)果輸入一個(gè)表格程序中進(jìn)行績(jī)效評(píng)估檢查。在任意給定的時(shí)間里,都至少有 20 個(gè)人在運(yùn)行他們獨(dú)立的為期一周的實(shí)驗(yàn),解決一些意想不到的問(wèn)題。有一個(gè)模型,某天突然“發(fā)瘋”,開始毫無(wú)預(yù)兆地將所有句子中遇到的數(shù)字全部提取出來(lái)然后丟棄,這樣危險(xiǎn)的情況持續(xù)了好幾個(gè)月。Schuster 說(shuō),「大家都嚇尿了。」
2016 年上旬,團(tuán)隊(duì)做出了很多研究成果,比如「詞塊模型」、「覆蓋懲罰」、「長(zhǎng)度標(biāo)準(zhǔn)化」。Schuster 說(shuō),每一個(gè)部分的貢獻(xiàn)可能不大,但是整合起來(lái)就有非常顯著的影響。一旦這個(gè)模型定型后,目前翻譯中使用的 150 種不同的模型將變?yōu)橐粋€(gè)單一的多語(yǔ)言模型,并隨著時(shí)間推移而進(jìn)步發(fā)展。然而,一個(gè)悖論仍然存在:通過(guò)學(xué)習(xí)機(jī)器進(jìn)行后續(xù)一般化時(shí)需要的工具和自動(dòng)化的過(guò)程需要人類付出極大的努力和智慧。所以他們現(xiàn)在所做的只是基于一種直覺:每層中需要多少神經(jīng)元?1024 個(gè)還是 512 個(gè)?需要多少層?應(yīng)該同時(shí)運(yùn)行多少個(gè)句子?訓(xùn)練需要多長(zhǎng)時(shí)間?
Schuster 告訴我:「我們做了數(shù)百次實(shí)驗(yàn),最終明白了我們應(yīng)該在一周內(nèi)結(jié)束訓(xùn)練。大家都在問(wèn),我們何時(shí)停止?我怎么能知道我做完了?其實(shí)你永遠(yuǎn)不會(huì)知道。機(jī)器學(xué)習(xí)機(jī)制永遠(yuǎn)達(dá)不到完美。你需要去訓(xùn)練,在某個(gè)時(shí)點(diǎn)也不得不停止。這是整個(gè)系統(tǒng)的本質(zhì),對(duì)一些人來(lái)說(shuō)會(huì)覺得很痛苦。但這也是一種藝術(shù)——就好像大家都想要畫一幅漂亮的畫,但是做下去就會(huì)發(fā)現(xiàn),有些人會(huì)做得更好,有些則更差?!?/p>
直到五月,谷歌大腦團(tuán)隊(duì)才明白,讓系統(tǒng)執(zhí)行足夠快的方法只有一個(gè),就是在 T.P.U.(一種特殊的芯片)上運(yùn)行。正如 Chen 所說(shuō),「我們甚至不知道代碼是否可以運(yùn)行。但是我們確實(shí)知道,沒有 T.P.U. 我們的工作無(wú)法進(jìn)行?!顾€記得一次又一次地懇求 Dean:「請(qǐng)為我們預(yù)留一些東西?!笵ean 為他們預(yù)留了。然而,T.P.U. 并沒有很好地解決問(wèn)題。Wu 為了找出原因,在一個(gè)硬件團(tuán)隊(duì)里呆了兩個(gè)月。他們不只是排除模型中的錯(cuò)誤,還解決芯片的問(wèn)題。神經(jīng)網(wǎng)絡(luò)翻譯項(xiàng)目將成為一個(gè)證明,以核驗(yàn)整體基礎(chǔ)設(shè)施投資概念是否可行。
六月的一個(gè)周三, Quartz Lake 的與會(huì)人員們正在對(duì)一篇百度發(fā)表的論文頗有微詞。Schuster 出面維持了秩序:「是的,百度發(fā)表了這篇文章,看起來(lái)我們好像被抄襲了——類似的結(jié)構(gòu),類似的結(jié)果?!构雀?2 月和 3 月內(nèi)部測(cè)試的 BLEU 分?jǐn)?shù)至關(guān)重要。Le 看起來(lái)很平靜;他的結(jié)論似乎認(rèn)為,這標(biāo)志著谷歌走在正確的道路上。他平靜地說(shuō):「這跟我們的系統(tǒng)非常相似。」
谷歌團(tuán)隊(duì)知道他們本可以更早地發(fā)表他們的結(jié)果,有可能打敗他們的對(duì)手,但是正如 Schuster 所說(shuō):「產(chǎn)品落地比發(fā)表論文更加重要。人們會(huì)說(shuō),『哦,我是第一個(gè)做出來(lái)的,但是到最后,誰(shuí)還在乎這些?』」
然而,這的確增加了他們的斗志,他們必須讓自己的服務(wù)產(chǎn)品做得更快更好。Hughes 有一個(gè)幻想:他們甚至無(wú)需通知他們的用戶更換產(chǎn)品。他們只需要等著看社會(huì)媒體們被這個(gè)偉大的進(jìn)步震驚和懷疑。他在 5 月 3 號(hào)下午 5:36 分告訴我;「我們還不想說(shuō)這是一個(gè)新的系統(tǒng)。」一分鐘后,團(tuán)隊(duì)向 10% 的用戶展示了中英互譯的結(jié)果,沒有告訴任何人?!肝覀兿胍_定系統(tǒng)運(yùn)行良好?!?/p>
然而結(jié)果是, Twitter 上出現(xiàn)了爆炸性的話題:「你知道 Google Translate 現(xiàn)在變得有多酷嗎?」
在四季界限并不明顯的硅谷,只有兩個(gè)衡量時(shí)間的方法是可靠的:一個(gè)是小廚房中隨季節(jié)變化的水果,二是 zigzag 指標(biāo)。
九月下旬的一個(gè)周一下午,天氣炎熱。團(tuán)隊(duì)的論文終于發(fā)表出來(lái),并且竟然有 31 個(gè)作者。第二天,谷歌大腦和谷歌翻譯部門的成員聚集在小廚房準(zhǔn)備好好慶祝一番。有趣的是,谷歌大腦部門的大樓,可能是為了向冬天的移民者致敬,叫做阿拉斯加,而谷歌翻譯的大樓主題則是夏威夷。夏威夷小廚房的墻上有一幅沙灘的照片,還有一個(gè)小小的掛著夏威夷花環(huán)的茅草屋樣的服務(wù)臺(tái),里面有一個(gè)玩具鸚鵡,屋頂上掛著紙燈籠,兩邊還立著幾個(gè)竹竿,就像是一個(gè)熱帶地區(qū)的堡壘。穿過(guò)竹竿的另一邊則是玻璃墻和一模一樣的灰色桌子。那天早上,Google Translate 新購(gòu)買了一批帽衫來(lái)慶祝它的十年慶,很多同事都來(lái)這里聚會(huì)。他們慶祝的是,在那一天,十年來(lái)積累的工作可以「退休」了。那些新的帽衫可能變成了舊部門的紀(jì)念品,但是兩個(gè)團(tuán)隊(duì)的工程師和計(jì)算機(jī)科學(xué)家們看起來(lái)都非常開心。
谷歌神經(jīng)網(wǎng)絡(luò)翻譯最終得以運(yùn)行。在聚會(huì)結(jié)束的時(shí)候,公司的中英互譯測(cè)試已經(jīng)處理了 1800 萬(wàn)次訪問(wèn)。翻譯團(tuán)隊(duì)的一個(gè)工程師忙著在他的手機(jī)上用百度翻譯將中文翻譯成英文。他歡呼著:「如果你一次輸入超過(guò)兩個(gè)字母,它就會(huì)超時(shí)!」(百度說(shuō),用戶從未反映過(guò)這個(gè)問(wèn)題)
在之后的幾周內(nèi),單詞量開始擴(kuò)展,谷歌發(fā)布了中文到英文的神經(jīng)網(wǎng)絡(luò)翻譯器。一些人質(zhì)疑說(shuō)這可能是因?yàn)橛h翻譯是谷歌唯一一個(gè)表現(xiàn)較好的語(yǔ)言對(duì)。但是每個(gè)參加聚會(huì)的人都知道,他們真正的成就將會(huì)在 11 月發(fā)布。雖然那時(shí),他們應(yīng)該已經(jīng)在其他項(xiàng)目組里了。
Hughes 清了清嗓子,走進(jìn)了 tiki 酒吧。他穿著領(lǐng)子皺巴巴的深綠色 Polo 衫,衣服上還有未干的汗?jié)n。就算還有最后一個(gè)問(wèn)題,和最后的最后問(wèn)題,包括論文中一個(gè)大的測(cè)量錯(cuò)誤和系統(tǒng)中一個(gè)奇怪的標(biāo)點(diǎn)符號(hào)錯(cuò)誤。但是所有事情都解決了,或者至少目前算是解決了。賓客們安靜了。Hughes 主持了一個(gè)高效而高產(chǎn)的會(huì)議,沒有啰嗦和廢話,但是他中途因?yàn)橐粋€(gè)隱喻問(wèn)題被迫暫停了一下,對(duì)他來(lái)說(shuō),必須強(qiáng)調(diào)這個(gè)事實(shí)——神經(jīng)網(wǎng)絡(luò)翻譯項(xiàng)目本身代表了一次「說(shuō)著不同語(yǔ)言的團(tuán)體間的合作」。他繼續(xù)說(shuō)道,他們的神經(jīng)網(wǎng)絡(luò)翻譯項(xiàng)目代表了「一次功能上的進(jìn)步」,一次不連續(xù)的進(jìn)步,一次垂直跳躍,而不是一種平滑的曲線。新的翻譯器不僅僅是團(tuán)隊(duì)的成功,更是一次從理論到實(shí)踐的巨大成就。他舉一瓶看起來(lái)很貴的香檳,「為了溝通!為了合作!」他說(shuō)。工程師們互相看看對(duì)方,為自己鼓了鼓掌。Jeff Dean 站在 Corrado 和 Schuster 旁邊,在小廚房的中間,手插在口袋里,微微聳肩,用一種他典型的不在乎的方式輕輕地附和了一下。Dean 說(shuō),「他們的努力說(shuō)明他們可以同時(shí)做兩件大事:做研究,并且在大概 5 億人面前將理論變?yōu)槭聦?shí)?!勾蠹叶夹α耍皇且?yàn)樗f(shuō)得很浮夸,而是因?yàn)樗f(shuō)的的確是事實(shí)。
人工智能領(lǐng)域里最具爭(zhēng)議的「中文房間」悖論,或許正揭示了機(jī)器翻譯的核心問(wèn)題。中文房間問(wèn)題是 1980 年由美國(guó)哲學(xué)家 John Searle 所提出的。在他所設(shè)想的實(shí)驗(yàn)中,一名母語(yǔ)為英語(yǔ)的實(shí)驗(yàn)者單獨(dú)呆在監(jiān)牢中,有一名獄吏通過(guò)門上的卡槽給他傳遞一些寫著中文漢字的紙條。而這名「囚犯」手上也有一套特定的工具,能夠滿足他編譯的需求。
這樣一來(lái),盡管這名房間中的人完全不會(huì)中文,但他依然可以用中文流利地和外界交流。那么,我們顯然不認(rèn)為這名囚徒是懂得中文的。那么電腦也是一樣,Searle 在這項(xiàng)研究的最后反駁了人工智能能夠擁有思想的觀點(diǎn),他認(rèn)為,它們只是因?yàn)閾碛辛死斫獾墓ぞ撸ň帉懞玫某绦蚝妥銐蚨嗟挠?xùn)練數(shù)據(jù)),而非真正明白了字里行間的含義。
回到谷歌大腦團(tuán)隊(duì)本身,甚至是延伸到硅谷中每一個(gè)致力于研究機(jī)器學(xué)習(xí)的人們,他們似乎并沒有把這個(gè)問(wèn)題太當(dāng)回事。這并非意味著他們忽略了這個(gè)悖論,而是他們與 Searle 不同,他們不會(huì)將「意識(shí)」當(dāng)作一種純精神領(lǐng)域的特殊狀態(tài)?!軐W(xué)家 Gilbert Ryle 甚至將其稱為「機(jī)器中的幽靈」。研究者們只是簡(jiǎn)單地相信,雖然我們所謂的「意識(shí)」看起來(lái)非常復(fù)雜且遙不可及,其實(shí)已經(jīng)在不同機(jī)器的簡(jiǎn)單協(xié)調(diào)活動(dòng)中出現(xiàn)。也就是說(shuō),我們一直以來(lái)認(rèn)為大腦會(huì)是思想(thought)的更高級(jí)存儲(chǔ)形式,但事實(shí)證明,機(jī)器這類(不那么高級(jí))的載體同樣能實(shí)現(xiàn)這一點(diǎn)。在這個(gè)語(yǔ)境中,邏輯的分析就像投球和接球一樣有跡可循。人工智能并不是憑空創(chuàng)造思想,而是為人類解決問(wèn)題提供更效的工具。就像我第一天在谷歌時(shí) Corrado 和我所說(shuō)的一樣,「這并不是一個(gè)關(guān)于機(jī)器『知曉』或『理解』的研究,而是 一個(gè)它『能做什么』,更重要的是『還不能做什么』的研究。」
誠(chéng)然,我們都明白「知道」與「實(shí)踐」會(huì)對(duì)現(xiàn)實(shí)的文化與社會(huì)產(chǎn)生影響。在一次聚會(huì)上,Schuster 談到在論文發(fā)表后,媒體對(duì)機(jī)器翻譯的熱捧有些過(guò)火。他一字一字地背出了首發(fā)媒體的新聞標(biāo)題:谷歌表示,人工智能翻譯水平已與人類媲美(GOOGLE SAYS A.I. TRANSLATION IS INDISTINGUISHABLE FROM HUMANS)。事實(shí)上,即使在論文收尾的最后階段,團(tuán)隊(duì)也一直在與這種觀點(diǎn)做「斗爭(zhēng)」。Schuster 反復(fù)強(qiáng)調(diào)「翻譯的結(jié)果的確比之前進(jìn)步不少,但還無(wú)法做得與人類一樣好?!顾蚕M蟊娔苊靼祝麄兯龅呐Σ皇窍肴〈糠g吃飯的人,而是更好地幫助他們。
而實(shí)際上,機(jī)器學(xué)習(xí)的興起也讓我們無(wú)法將焦點(diǎn)只放在某個(gè)孤立的特殊領(lǐng)域。如果你持與 Searle 相同的觀點(diǎn),認(rèn)為人類自身?yè)碛幸环N機(jī)器無(wú)法取代的洞察力的話,那么你自然能將人類與自動(dòng)化劃分出一條明晰的界限。而如果你站在對(duì)立面,那么這二者間實(shí)際上就存在著灰度。因此,我們也不難理解現(xiàn)在為何有越來(lái)越多的研究者站隊(duì)第一種想法。2015 年,在探討人工智能根源的 M.I.T 大會(huì)上,Noam Chomsky 被問(wèn)到他對(duì)機(jī)器學(xué)習(xí)的看法。他認(rèn)為目前整個(gè)人工智能行業(yè)只能算得上是「統(tǒng)計(jì)預(yù)測(cè)」,就像全球性的天氣預(yù)測(cè)那樣。即使神經(jīng)翻譯已經(jīng)能夠達(dá)到近乎完美的機(jī)翻水平,但語(yǔ)言背后隱藏的豐富底蘊(yùn)與文字之美,機(jī)器無(wú)從揭示一絲一毫。它永遠(yuǎn)不會(huì)告訴你,這個(gè)代詞代表的是間接還是直接受格。誠(chéng)然,這些所謂的預(yù)測(cè)是能夠讓你實(shí)現(xiàn)目標(biāo),但它并不能讓你進(jìn)一步理解其中的原理。人工智能可以精確地從醫(yī)學(xué)影像圖片診斷腫瘤位置,但機(jī)器無(wú)法像醫(yī)生一樣通過(guò)望聞問(wèn)切,明白這名病人為何患病。
那么問(wèn)題來(lái)了,放射醫(yī)師就能做到這一點(diǎn)嗎?
醫(yī)學(xué)診斷,這可能是機(jī)器學(xué)習(xí)發(fā)展速度最快且最難以預(yù)料的一個(gè)領(lǐng)域。放射科醫(yī)師通常都經(jīng)過(guò)高強(qiáng)度訓(xùn)練,且擁有不菲的收入。因此,我們認(rèn)為醫(yī)師的技能實(shí)際上是存在某種職業(yè)洞察力的——也就是我們剛剛所提到的,通常只能存在于人腦中的,通過(guò)長(zhǎng)年經(jīng)驗(yàn)所積累的判斷。而在過(guò)去的短短幾年間,研究者們不僅可以通過(guò)神經(jīng)網(wǎng)絡(luò)分析出病理區(qū)域,甚至機(jī)器還能根據(jù)以往的病歷文本做出初步診斷。而逐漸,放射科醫(yī)師的工作內(nèi)容比起以往的邏輯分析,可能更接近于對(duì)可預(yù)測(cè)的模型進(jìn)行匹配。畢竟你并不會(huì)得知是什么引起了癌癥,你只會(huì)知道它就在那里。
如果出于某些富有針對(duì)性的目的,我們得以建立一個(gè)魯棒性強(qiáng)的模式匹配裝置,它的內(nèi)在結(jié)構(gòu)同樣得以舉一反三,應(yīng)用于許多其它領(lǐng)域。一名翻譯團(tuán)隊(duì)的工程師將一個(gè)神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練鑒賞藝術(shù)品,甚至可以用來(lái)驅(qū)動(dòng)一輛用無(wú)線電控制的自動(dòng)汽車。同樣是這樣的神經(jīng)網(wǎng)絡(luò),它能夠用來(lái)識(shí)別一只貓,或者是用來(lái)訓(xùn)練識(shí)別 CT 片子——而它在短時(shí)間所接受的訓(xùn)練數(shù)據(jù)可能比最富資歷的醫(yī)生所見過(guò)的還要多。神經(jīng)網(wǎng)絡(luò)能夠在瞬間閱讀上百萬(wàn)頁(yè)的法律條文,以構(gòu)建自己的翻譯知識(shí)庫(kù),而就像雷鋒網(wǎng)此前所提到的一樣——人的一生所閱讀的文字,可能對(duì)它而言只是浮光掠影。這類被自動(dòng)化取代的工作不會(huì)只是那些簡(jiǎn)單的重復(fù)性工作——更何況,我們將其與低人工智能聯(lián)系在一起,這種聯(lián)想并不公平。我們并不是在談?wù)撃?350 萬(wàn)可能失業(yè)的卡車司機(jī),而是在討論包括卡車司機(jī)、經(jīng)濟(jì)學(xué)家、金融分析師、房地產(chǎn)商在內(nèi)的人們。過(guò)去的九個(gè)月只是證明了,谷歌大公司里的一個(gè)小團(tuán)隊(duì)能在多短的時(shí)間內(nèi),將一個(gè)無(wú)人涉足的項(xiàng)目嘗試自動(dòng)化。
如今,硅谷所發(fā)生的最重要的事情并不是打破一切。相反,你可以把它視為一種體系建立,或是權(quán)力鞏固的過(guò)程,而這樣的發(fā)展速度在人類歷史進(jìn)程上是前無(wú)古人后無(wú)來(lái)者的。谷歌大腦招過(guò)實(shí)習(xí)生,也有長(zhǎng)駐的老員工;團(tuán)隊(duì)為員工們提供了高強(qiáng)度的培訓(xùn),但在公司也有免費(fèi)的自行車頭盔及綠傘(雖然這里一年下兩次雨)。水果沙拉、休息的行軍床、按摩椅、數(shù)不盡的高端點(diǎn)心、還有幼兒衣物捐贈(zèng)箱,有專業(yè)老師指導(dǎo)的攀巖課(墻有兩層樓那么高),你甚至還能參加閱讀分享會(huì)或是政治漫談小組。在這塊人類智慧的沃土上,谷歌員工們?cè)陔娮拥V場(chǎng)中辛勤勞作,所產(chǎn)出的精神財(cái)富將橫跨四大洲 13 個(gè)數(shù)據(jù)中心,為數(shù)不盡的人們帶來(lái)光明。
不過(guò),即使是像谷歌這樣巨大的機(jī)構(gòu)也需要正視人工智能大潮。如果機(jī)器能從人類的傳道授業(yè)中學(xué)習(xí),那么像程序員這種看似無(wú)可替代的工作也可能有朝一日不保。在聚會(huì)臨近尾聲之際,Corrado 向 Hughes 展示了他筆記本電腦上的內(nèi)容。
Hughes 秒懂了這是什么,而當(dāng)我仔細(xì)看清了上面出現(xiàn)的名字和文件后,我才反應(yīng)過(guò)來(lái)。這個(gè)動(dòng)畫細(xì)數(shù)的是 10 年的翻譯代碼變化歷程:從 2006 年、到 2008 年,再到 2015 年。Hughes 慢慢地拖動(dòng)進(jìn)度條,鏡頭在寫滿貢獻(xiàn)者的名字間一閃而過(guò)。Hughes 充滿感慨地指出,Jeff Dean 的名字其實(shí)在全片中出現(xiàn)了很多次——而且在未來(lái)可能也將繼續(xù)下去。
Hughes 叫了 Corrado 一聲,隨后兩人起身。Corrado 看起來(lái)有點(diǎn)傷感,似乎還沉浸在懷舊的情緒之中。為了打破這種氣氛,他抬起頭問(wèn)道:「那么,我們什么時(shí)候會(huì)把原有的代碼刪掉呢?」
「不用擔(dān)心,」Hughes 回答道,「新的代碼庫(kù)就要建起來(lái)了。一切都在成長(zhǎng)。」
via nytimes
雷鋒網(wǎng)后記:在敲下最后一個(gè)字的時(shí)候,伴隨而來(lái)的并不只是完成了「艱巨任務(wù)」般的釋然,更有一種莫名的感慨。兩萬(wàn)字所描繪出的,也只是谷歌團(tuán)隊(duì)十年努力的一管窺豹。誠(chéng)然,用人工的手段來(lái)翻譯一篇關(guān)于如何用人工智能改造谷歌翻譯的文章,似乎聽上去有點(diǎn)兒諷刺。而在編譯的時(shí)候,雷鋒網(wǎng)也曾經(jīng)嘗試打開 Google Translate,看看它自己翻譯出來(lái)的這篇描述自己的文章長(zhǎng)什么樣——答案很顯然,對(duì)于這種包含大量隱喻及描寫細(xì)節(jié)的文章,Google Translate 還需要努力?。ㄐΓR恢闭J(rèn)為翻譯是一種再創(chuàng)作的過(guò)程,是將原文所傳達(dá)的含義以另一種語(yǔ)言的形式傳遞給讀者,雷鋒網(wǎng)作為智能與未來(lái)的前瞻者,也希望能以這樣的形式,讓更多的讀者感受到前沿科技的心跳。2016 即將結(jié)束,愿每一位讀者都能在與雷鋒網(wǎng)同行的路上收獲知識(shí)和喜悅。
【招聘】雷鋒網(wǎng)堅(jiān)持在人工智能、無(wú)人駕駛、VR/AR、Fintech、未來(lái)醫(yī)療等領(lǐng)域第一時(shí)間提供海外科技動(dòng)態(tài)與資訊。我們需要若干關(guān)注國(guó)際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優(yōu)良的外翻編輯加入。
簡(jiǎn)歷投遞至 wudexin@leiphone.com,工作地 北京。
相關(guān)文章:
谷歌大腦是如何煉成的:萬(wàn)字無(wú)刪減版全解密(一)
谷歌大腦是如何煉成的:萬(wàn)字無(wú)刪減版全解密(二)
谷歌大腦是如何煉成的:萬(wàn)字無(wú)刪減版全解密(三)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。