0
本文作者: 宗仁 | 2016-05-25 17:39 | 專題:雷峰網(wǎng)公開(kāi)課 |
今年8月,雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號(hào)關(guān)注)將在深圳舉辦“全球人工智能與機(jī)器人創(chuàng)新大會(huì)”(GAIR),在本次大會(huì)上,我們將發(fā)布“人工智能與機(jī)器人Top25創(chuàng)新企業(yè)榜“,商鵲網(wǎng)是我們重點(diǎn)關(guān)注的公司之一。今天,我們邀請(qǐng)到了商鵲網(wǎng)CEO鄒劍宇,以實(shí)戰(zhàn)經(jīng)驗(yàn)為我們解讀,什么樣的機(jī)器翻譯比Google還要占優(yōu)?雷鋒網(wǎng)
嘉賓介紹: 鄒劍宇。商鵲網(wǎng)創(chuàng)始人及首席執(zhí)行官。中國(guó)第一代互聯(lián)網(wǎng)記者。1997-2007服務(wù)《三聯(lián)生活周刊》,任經(jīng)濟(jì)部負(fù)責(zé)人, 《南方周末》和FT中文網(wǎng)專欄作家,跟蹤報(bào)道了中國(guó)互聯(lián)網(wǎng)的前十年歷程。2007年進(jìn)入互聯(lián)網(wǎng),先后擔(dān)任雅虎中國(guó)主編,貓撲網(wǎng)和中國(guó)移動(dòng)微博總編輯。2012年擔(dān)任元培翻譯高級(jí)副總裁,創(chuàng)建其互聯(lián)網(wǎng)翻譯事業(yè)部。2013年創(chuàng)建商鵲網(wǎng)。
先介紹下我們的創(chuàng)業(yè)團(tuán)隊(duì),跟我合伙創(chuàng)業(yè)的,是清華的本科和碩士畢業(yè)的自然語(yǔ)言大拿,叫魏勇鵬。以及中科院的博士胡日勒,原來(lái)在諾基亞負(fù)責(zé)機(jī)器翻譯。
正如大家所想,能吸引我們?cè)诜g行業(yè)創(chuàng)業(yè)的前提,肯定是翻譯行業(yè)遇到了一些問(wèn)題。下圖比較完整地概括了翻譯行業(yè)遇到的問(wèn)題。
其實(shí)這是個(gè)小行業(yè),規(guī)模特別小,沒(méi)有大公司。但是翻譯需求,貌似沒(méi)有誰(shuí)沒(méi)有遇到過(guò),所以很多人會(huì)拍腦袋一想——“這是個(gè)大生意”!但實(shí)際情況會(huì)是這行確實(shí)需求挺多,但生意不大。我們創(chuàng)業(yè)的時(shí)候,這一點(diǎn)看得很清楚,如果不跟上機(jī)器翻譯的趨勢(shì),翻譯一定沒(méi)得做。
先說(shuō)說(shuō)機(jī)器翻譯的現(xiàn)狀吧,這個(gè)BLEU值的評(píng)測(cè)結(jié)果,說(shuō)明了現(xiàn)在機(jī)器翻譯的現(xiàn)狀。一般人的體會(huì),是機(jī)器翻譯有很多不盡如人意的地方。商業(yè)伙伴第一句話問(wèn)的也是:你們機(jī)器翻譯準(zhǔn)確度是多少?這一PPT講清楚了背后的事實(shí):目前通用的機(jī)器翻譯的準(zhǔn)確度約50%弱一點(diǎn)
這個(gè)一般的準(zhǔn)確度,說(shuō)起來(lái)都是淚。客戶說(shuō):那你們這個(gè)太差了;投資人也說(shuō):那你們這個(gè)太差了。我不是技術(shù)出身,創(chuàng)業(yè)初期也對(duì)這個(gè)準(zhǔn)確度有很大期待,對(duì)伙伴有無(wú)限期待。一年下來(lái)發(fā)現(xiàn)期待總是落空,所以就反?。菏虑槌鰡?wèn)題了還是我出什么問(wèn)題了? 所以就開(kāi)始學(xué)習(xí),四處打探事實(shí)。找到的事實(shí),見(jiàn)下圖
這個(gè)理論引用的是英國(guó)特別NB的物理學(xué)家,也是世界知名的認(rèn)知學(xué)家講的,如果咱們不知道創(chuàng)造是怎么回事,那就別想創(chuàng)造一個(gè)創(chuàng)造的能力了,這個(gè)家伙的理論高度,個(gè)人覺(jué)得高于《人類簡(jiǎn)史》那個(gè)以色列教授。如果說(shuō)《人類簡(jiǎn)史》是歷史概述,那這個(gè)教授的書(shū)則是開(kāi)創(chuàng)性的認(rèn)知啟蒙,他的意思,是圖靈測(cè)試,有點(diǎn)詭辯和連蒙帶詐地制造了一個(gè)AI。
這個(gè)是咱們中國(guó)的理論物理學(xué)家、科學(xué)網(wǎng)紅李淼教授總結(jié)的:物理邏輯運(yùn)轉(zhuǎn)的計(jì)算方法,得不出類似量子運(yùn)轉(zhuǎn)的創(chuàng)造思維結(jié)果。總結(jié)下來(lái):理論不夠,方法不對(duì)。理解人性思維的AI做得有點(diǎn)辛苦。
是我現(xiàn)場(chǎng)去聽(tīng)了張鈸教授的課,這里主要是講機(jī)器智慧,與類人的AI的區(qū)別,按他的理論,AI極其有可能有自己的意志,即按照自己的邏輯行動(dòng),并有可能傷害人類。但是機(jī)器直接來(lái)理解人,這一點(diǎn)目前看不到。我是做機(jī)器翻譯的,被稱為AI的皇冠,是用機(jī)器來(lái)理解人類的認(rèn)知,難度非常大。目前比較成熟的AI應(yīng)用,主要集中在感知層,諸如視覺(jué)、聽(tīng)覺(jué)的機(jī)器識(shí)別,總結(jié)下來(lái),這三個(gè)人物所講理論,給了我一顆定心丸:我再也不期待工程師給我一個(gè)完美的翻譯引擎了,跟客戶說(shuō)機(jī)翻結(jié)果時(shí)再也不忐忑不安了:我們就是這樣的!
把大家對(duì)機(jī)器翻譯的期待,轉(zhuǎn)化為翻譯的期待,是比較合理和現(xiàn)實(shí)的,——機(jī)器不會(huì)萬(wàn)能,人來(lái)幫忙。
現(xiàn)在大家能用到的機(jī)器翻譯,包括口語(yǔ)翻譯軟件,基本上準(zhǔn)確度都是50%左右的引擎,不過(guò)看看使用量:很驚人;但在商業(yè)服務(wù)領(lǐng)域,情況不太一樣。
也就是說(shuō):機(jī)器翻譯沒(méi)有直接的商業(yè)模式。有價(jià)值的是流量。有時(shí)候會(huì)讓我們這個(gè)圈子的人這么感慨,“這么難的事,我都去做了,卻賺不到錢(qián)(哭)”。當(dāng)然我們也哭,不過(guò)還是會(huì)看清楚自己的價(jià)值。
這里要補(bǔ)充一下:實(shí)際上我們公司開(kāi)發(fā)的不是和谷歌百度一樣的通用引擎,我們?cè)诖怪鳖I(lǐng)域做工作。目前商鵲網(wǎng)的翻譯引擎,針對(duì)科研、專利領(lǐng)域,所以我們的準(zhǔn)確度應(yīng)該比通用引擎高一些,因?yàn)榇怪鳖I(lǐng)域的數(shù)據(jù)研發(fā)后會(huì)更精準(zhǔn),如果垂直的引擎還不如通用的引擎在該領(lǐng)域的效果,就混不下去了(掩面ing)。我們?cè)谝粋€(gè)客戶的競(jìng)標(biāo)中,的確是打敗了谷歌和必應(yīng)的引擎服務(wù),拿到了一個(gè)專利內(nèi)容的機(jī)器翻譯的常年訂單,每個(gè)月都在干活。我們提供的主要服務(wù)叫人機(jī)結(jié)合的譯后編輯 PE(Post Editing)服務(wù)。
這是我們服務(wù)的技術(shù)架構(gòu),在這個(gè)技術(shù)架構(gòu)上面,我們使用了大量的譯員,這些譯員需要參加PE生產(chǎn)的培訓(xùn),因此,研發(fā)之外的BD和培訓(xùn)工作,是公司日常的大業(yè)務(wù)。
這是我們公司的培訓(xùn)矩陣。我們受譯協(xié)委托,給中國(guó)300所外語(yǔ)院校培訓(xùn)翻譯技能,就是我們研發(fā)的PE生產(chǎn)流程,這里發(fā)生了很有意思的事,這是我們培訓(xùn)的三個(gè)學(xué)員,他們跟機(jī)器的關(guān)系由淺入深,工作效率也由低到高。
里面的話,都是學(xué)員在答問(wèn)卷的原話,非常真實(shí)的感受,所以,培訓(xùn)的邏輯,就是把半成品的機(jī)器翻譯的結(jié)果,讓譯員最大程度的利用上,以減少譯員自己的工作量和工作強(qiáng)度,提高效率,公司降低成本,這一點(diǎn),培訓(xùn)中充分體現(xiàn)出來(lái)了,當(dāng)然,也有一點(diǎn)點(diǎn)問(wèn)題,不是所有譯員對(duì)人機(jī)結(jié)合都感到舒適的。
這里涉及到了:“AI真的會(huì)取代人,減少工作機(jī)會(huì)”,這是一個(gè)重大的社會(huì)問(wèn)題,從局部來(lái)看,是的。但是更大時(shí)間和范圍來(lái)看,人還是有無(wú)數(shù)的事情要做。這里的一個(gè)技能是:人要學(xué)會(huì)和機(jī)器相處,讓機(jī)器學(xué)會(huì)和人相處,就是咱們?nèi)粘T谧龅腁I研發(fā),難度太大了。讓人和機(jī)器相處,只需要學(xué)習(xí)和體驗(yàn),就能做到。所以,讓人屈尊配合機(jī)器,是眼前最現(xiàn)實(shí)的事情,雖然有不適,但應(yīng)該不是大問(wèn)題吧。Anyway,人機(jī)結(jié)合的不適,難道比時(shí)髦的VR大眼罩更不人性嗎?
人屈尊去配合機(jī)器,意味著兩件事:
第一、人可以給機(jī)器“更深度學(xué)習(xí)”的機(jī)會(huì),對(duì)PE翻譯來(lái)說(shuō),因?yàn)槲覀兊淖g員,是最深度的用戶,所以他們每一次對(duì)機(jī)器翻譯結(jié)果的選擇和修正,都是機(jī)器學(xué)習(xí)的最好樣板。這種集中的人群應(yīng)用,是谷歌等通用引擎夢(mèng)寐以求,但是找不到的目標(biāo)人群。(因?yàn)楣雀璺g不支持深度人機(jī)交互,只有一個(gè)選項(xiàng):你覺(jué)得結(jié)果好還是不好)。
第二,人機(jī)結(jié)合的翻譯,幾乎只有在中國(guó)可以深度運(yùn)轉(zhuǎn)。不單是因?yàn)橹袊?guó)有最多的勞動(dòng)力,還因?yàn)橹袊?guó)是世界上獨(dú)一無(wú)二的全語(yǔ)種的體制課程教育體系。
也就是說(shuō)教育部下屬大學(xué)里,可以學(xué)到世界上所有實(shí)用的語(yǔ)言,在美國(guó),人力很貴、譯員更貴,不會(huì)有公司有成本動(dòng)用這么多人力來(lái)做人機(jī)結(jié)合的服務(wù)。反過(guò)來(lái),也沒(méi)有這么多專業(yè)人士來(lái)反哺AI的成長(zhǎng)。
這里順便打個(gè)廣告,嘿嘿。商鵲網(wǎng)5月21日,也就是上周六和豬八戒簽署了一個(gè)戰(zhàn)略合作協(xié)議,商鵲為豬八戒的翻譯頻道提供產(chǎn)品、系統(tǒng)、服務(wù)、招募和BD等一系列的運(yùn)營(yíng)支持服務(wù)。因此,商鵲網(wǎng)形成了一個(gè)翻譯的閉環(huán),從需求到生產(chǎn),從研發(fā)到培訓(xùn),生產(chǎn)和AI研發(fā)可以互相借力成長(zhǎng),豬八戒是“服務(wù)業(yè)的淘寶”,所以它有能力把分散的翻譯需求集中到一個(gè)大平臺(tái)上來(lái)。
這里要解釋一下,PE和眾包的關(guān)系
一般來(lái)說(shuō),像設(shè)計(jì),法律、翻譯等服務(wù)業(yè),目前想到的互聯(lián)網(wǎng)解決辦法,就是眾包,翻譯類的眾包有過(guò)很多平臺(tái),無(wú)一類外都含恨離去,我跟豬八戒的最資深外包服務(wù)的人探討這個(gè)問(wèn)題,最后都認(rèn)為問(wèn)題出在供應(yīng)方。過(guò)去一般認(rèn)為,有需求,把客戶找上來(lái),讓服務(wù)商蜂涌上去,問(wèn)題就解決了,實(shí)際上,一個(gè)服務(wù)的需求千奇百怪,匹配合適的供應(yīng)商的成本,遠(yuǎn)高于服務(wù)本身的價(jià)值,所以我們的解決辦法,是讓供應(yīng)商在服務(wù)的產(chǎn)品、流程和交付質(zhì)量,以及服務(wù)商品牌上下功夫。
讓最主要的需求有標(biāo)準(zhǔn)化的產(chǎn)品來(lái)服務(wù),而翻譯服務(wù)要做到這一點(diǎn),IT技術(shù)和翻譯技術(shù)是必須的,說(shuō)了這么多,說(shuō)一個(gè)實(shí)際案例。
商鵲網(wǎng)使用PE,為中國(guó)和日本的專利客戶提供翻譯服務(wù)。日本客戶對(duì)信息管理、對(duì)質(zhì)量苛求非常嚴(yán)格,我們從一個(gè)第五層的分包商成長(zhǎng)為直接的翻譯供應(yīng)商,依靠的就是PE生產(chǎn)的高效、低成本,以及穩(wěn)定的質(zhì)量。資深翻譯一定比我們的普通譯員做得好,但是人總有累、病的時(shí)候,還有多個(gè)譯員翻譯習(xí)慣不同術(shù)語(yǔ)不統(tǒng)一等等,這些問(wèn)題機(jī)器不怕。機(jī)器解決了術(shù)語(yǔ)準(zhǔn)確和統(tǒng)一問(wèn)題,人是輔助優(yōu)化的。因此,我們剛畢業(yè)的本科學(xué)生,即勝任了工作5年以上的老譯員,效率還更高。
那么,在專利領(lǐng)域是醬紫,我們做到了全世界(不含糊)最優(yōu)的翻譯成本,其他領(lǐng)域呢?
中國(guó)人不再把生活局限在出生的這個(gè)國(guó)家了,從上學(xué)、租房、買(mǎi)房、投資理財(cái)、養(yǎng)老保險(xiǎn)、求醫(yī)問(wèn)藥、學(xué)習(xí)移民等等,還有日常的跨境購(gòu)物和旅游,生活空間出國(guó)了,但是俺們那嘎達(dá)的鄉(xiāng)音難忘也難改,不懂英文咋辦?
陪同翻譯的服務(wù)不是我們要做的,但是有更大的需求:基本上大家認(rèn)為超過(guò)60%的有價(jià)值的英文信息還是沒(méi)有中文版的,現(xiàn)在大家能夠看到大部分英文世界的NEWS的中文版,但是編輯好的information,以及更深度的Knowledge,咱們是看不到中文版的?;蛘呖吹降暮芡?、很不全,很貴。
譬如,魏澤西同學(xué)死于絕癥,但是莆田人盈利導(dǎo)向的資訊,是讓他遺恨的地方。中國(guó)人上網(wǎng)求醫(yī)問(wèn)藥,一個(gè)字到網(wǎng)上,有1000個(gè)莆田人在等你。實(shí)際上歐美有很科學(xué)、真實(shí)的醫(yī)、藥、病的數(shù)據(jù)庫(kù),把這些數(shù)據(jù)庫(kù)翻譯成中文,是有價(jià)值的。還有就是投資,買(mǎi)美股。一般中國(guó)人除了中概股之外,能對(duì)4000家美國(guó)主要上市公司里的100家有所了解?還有更多的基金公司、基金產(chǎn)品,保險(xiǎn)產(chǎn)品,能了解多少呢?
要想做一個(gè)國(guó)際人,即要有國(guó)際的資訊氛圍。過(guò)去沒(méi)有,是因?yàn)檫@里的翻譯工程成本太高、效率太低了!
現(xiàn)在有機(jī)器翻譯——針對(duì)瀏覽級(jí)的需求;人機(jī)結(jié)合的深度翻譯——針對(duì)資料、精讀級(jí)的需求,因此,現(xiàn)在翻譯也變了。
翻譯不再是一個(gè)不管內(nèi)容的語(yǔ)言轉(zhuǎn)換,是一個(gè)多語(yǔ)言轉(zhuǎn)換和智能知識(shí)管理的綜合工程。做到這一點(diǎn),翻譯很有意思了。我們?cè)谛∫?guī)模的翻譯服務(wù)里,發(fā)現(xiàn)生意可以反哺AI研究,不完全依靠VC輸血。而另外呢,則對(duì)未來(lái)的AI智能應(yīng)用前景充滿期待。所以,很期待和同懷AI夢(mèng)想的大家,一起走到那一天,我的嘮叨先到此。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。