5
本文作者: 知社學(xué)術(shù)圈 | 2016-04-17 19:11 |
按:本文由知社學(xué)術(shù)圈士奇原創(chuàng)編譯。
如何在王珞丹里面找出白百合?如何在春哥叢中發(fā)現(xiàn)姚明?也許你曾被12306那些神奇的驗(yàn)證碼所折磨,也許你曾看著那些被折磨的家伙而心中竊喜。無(wú)論怎樣的搞怪和奇葩,它們存在的根本目的其實(shí)是保護(hù)多數(shù)人的利益,維護(hù)一個(gè)正常的網(wǎng)絡(luò)環(huán)境。論壇上留言,社交網(wǎng)站里注冊(cè)賬號(hào),或者直接在網(wǎng)上買一張火車票……驗(yàn)證碼隨處可見,在一定程度上阻擋了惡意軟件的肆虐。那么,最初的驗(yàn)證碼又是什么樣子呢?
早在2000年,卡內(nèi)基梅隆大學(xué)的Luis von Ahn發(fā)明了一種工具,以抵制網(wǎng)絡(luò)上的不良軟件程序。假如你要在線購(gòu)買車票,那么你需要過(guò)目一組扭曲的字母,并輸入正確內(nèi)容。這樣,系統(tǒng)可以將你判定為人類,而非機(jī)器程序。這就是所謂的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。
然而,隨著惡意軟件的進(jìn)步,驗(yàn)證碼也跟著提升了難度,這使人們?cè)诒孀R(shí)圖案這件事上要花費(fèi)更多的精力。偶爾,也會(huì)出現(xiàn)些令人尷尬的情形。據(jù)說(shuō)Yahoo曾收到一條求救信息,詢問(wèn)系統(tǒng)出現(xiàn)了“W A I T”字樣,可是他等了20分鐘卻沒(méi)有任何反應(yīng)。
如果說(shuō)這是一場(chǎng)介于網(wǎng)站和惡意程序/用戶之間的競(jìng)爭(zhēng),那么最大的受害者是普通用戶。據(jù)Google統(tǒng)計(jì),每天,地球人至少要填寫2億個(gè)驗(yàn)證碼。平均來(lái)講,人們搞定一個(gè)驗(yàn)證碼需要10秒的時(shí)間。往往我們還會(huì)因?yàn)榭床磺宄坏貌粨Q一個(gè)新的來(lái)輸入。按照這些數(shù)據(jù)計(jì)算,人類每天在驗(yàn)證碼上就浪費(fèi)了50多萬(wàn)個(gè)小時(shí)。這實(shí)在是一件令人沮喪的事。
這樣大數(shù)量級(jí)的時(shí)間浪費(fèi)問(wèn)題再一次激發(fā)了Luis von Ahn,他開始思考,是否有什么方法可以把這些碎片時(shí)間利用起來(lái),哪怕僅僅是那短暫的10秒。面對(duì)如此奇妙的設(shè)想,他居然找到了答案。
如果你曾經(jīng)填寫過(guò)類似下面形式的驗(yàn)證碼,那么恭喜你,盡管你可能并不知情,但實(shí)際上你在做著一件很有意義的事情——為舊書電子化。
解決這一問(wèn)題的傳統(tǒng)做法是直接掃描書頁(yè),然后由計(jì)算機(jī)來(lái)辨認(rèn)圖片中的文字。這就是所謂的光學(xué)字符識(shí)別 (OCR)。然而這一技術(shù)并沒(méi)有我們以為的那樣理想,對(duì)于一本50年前的舊書,計(jì)算機(jī)可正確辨識(shí)的文字甚至達(dá)不到30%。我們所看到的那些扭曲怪詞正是出自這樣的舊書。當(dāng)然,這些詞匯變得扭曲只是為了抵抗那些惡意程序。
問(wèn)題來(lái)了,如何判斷人們輸入的詞正確與否呢?上圖中出現(xiàn)的雙詞形式正是Von Ahn給出的解決方法。對(duì)于從舊書中提取出來(lái)的陌生詞語(yǔ),計(jì)算機(jī)并不知道答案,所以也無(wú)法判斷電腦前的真人輸入的是否正確。但是系統(tǒng)可以多給出一個(gè)詞,這個(gè)詞系統(tǒng)是知道其正確文字內(nèi)容的。輸入驗(yàn)證碼的用戶并不知道哪個(gè)是哪個(gè)的,只是順其自然地把兩個(gè)詞都填上。如果電腦知道正確答案的那個(gè)詞我們輸入對(duì)了,那么系統(tǒng)會(huì)判定用戶是真人,從而推斷另一個(gè)輸入的詞也是正確的。當(dāng)然,這樣一次判斷是不夠的。通過(guò)重復(fù)這一過(guò)程,如果還有 (比如) 10個(gè)真人都輸入了相同的內(nèi)容,那么系統(tǒng)才會(huì)認(rèn)為這個(gè)未知詞語(yǔ)真正得到了數(shù)字化。
這就是所謂的reCAPTCHA。在國(guó)外,Ticketmaster,F(xiàn)acebook,Twitter等很多站點(diǎn)都曾使用過(guò)這種技術(shù)。據(jù)統(tǒng)計(jì),通過(guò)這種方法每天可以數(shù)字化的詞匯可達(dá)1億個(gè)。也就是說(shuō),每年會(huì)有250萬(wàn)本書被數(shù)字化,而這一壯舉只不過(guò)是基于我們最簡(jiǎn)單不過(guò)的填寫驗(yàn)證碼完成的。盡管reCAPTCHA較以往的驗(yàn)證碼難度更大,但數(shù)據(jù)表明,人們輸入的正確率高達(dá)92%。
然而這還并非最了不起的數(shù)字。要知道,很多偉大的工程都需要耗費(fèi)巨大人力。很巧的是,建造埃及金字塔,修建巴拿馬運(yùn)河,或者把一個(gè)人送上月球,這些事都牽扯了大約10萬(wàn)人。這也不難理解,在互聯(lián)網(wǎng)出現(xiàn)以前,調(diào)度和照顧10萬(wàn)人以上是很困難的事。如今,在將人類文化與知識(shí)數(shù)字化這一工作上,通過(guò)雙詞驗(yàn)證碼做出過(guò)貢獻(xiàn)的個(gè)人超過(guò)了7.5億,這已經(jīng)超出了世界人口的十分之一。試想,10萬(wàn)人可以把一名宇航員送上月球,那么1億人能做出什么?7.5億人又能實(shí)現(xiàn)什么?
Von Ahn并沒(méi)有停下腳步,順著這條思路,他又將故事推向了新的高度。也許你聽說(shuō)過(guò)多鄰國(guó) (Duolingo),沒(méi)錯(cuò),正是驗(yàn)證碼的發(fā)明者開發(fā)了這個(gè)語(yǔ)言學(xué)習(xí)平臺(tái)。上億人在學(xué)習(xí)外語(yǔ)的同時(shí),也在幫助翻譯資料。
我們知道,互聯(lián)網(wǎng)中的內(nèi)容大部分為英文,而其他語(yǔ)言盡管比例相對(duì)略低,但體量依然巨大。Von Ahn想做的事是將互聯(lián)網(wǎng)中的大部分內(nèi)容翻譯成各種主流語(yǔ)言。這件事目前仍無(wú)法依賴電腦來(lái)完成,原因同OCR一樣。當(dāng)然,也有專業(yè)語(yǔ)言機(jī)構(gòu)可以提供此種服務(wù),但問(wèn)題是費(fèi)用極其昂貴。我們選取維基百科為例,其西班牙語(yǔ)版本內(nèi)容僅為英語(yǔ)版內(nèi)容的20%,如果把另外80%全部翻譯為西班牙語(yǔ),那么這至少需要5000萬(wàn)美元。而Von Ahn則想讓上億人在不經(jīng)意間攜手完成這一壯舉。
要實(shí)現(xiàn)這一點(diǎn),至少需要克服兩個(gè)困難。一是需要擁有雙語(yǔ)能力的人;二是需要這些人有足夠的動(dòng)機(jī)去做翻譯之類的事。哪一條看起來(lái)都很棘手,我們甚至不知道世界上有沒(méi)有1億人具備雙語(yǔ)能力,更別說(shuō)引導(dǎo)他們?nèi)プ龇g工作。
然而有一件事正好可以一箭雙雕,那就是語(yǔ)言教育。如今,世界上有超過(guò)12億人在學(xué)習(xí)一門外語(yǔ)。單在美國(guó),花上500美元購(gòu)買語(yǔ)言軟件的人就超過(guò)500萬(wàn)。Von Ahn卻反其道而行之,開發(fā)了Duolingo這款免費(fèi)語(yǔ)言學(xué)習(xí)系統(tǒng)。
其基本原理在于人們免費(fèi)學(xué)習(xí)語(yǔ)言的同時(shí),也在翻譯內(nèi)容。無(wú)論初級(jí)還是高級(jí)用戶,系統(tǒng)會(huì)分配相當(dāng)難度的語(yǔ)句讓你翻譯,通過(guò)比對(duì)其他用戶的翻譯結(jié)果,你不斷地學(xué)習(xí)了這些內(nèi)容。也就是說(shuō),人們都是在邊做邊學(xué)。令人驚訝的是,這一理念在實(shí)際應(yīng)用中極為有效。
有趣的是,幾個(gè)初級(jí)水平的用戶合起來(lái)的效果與一名專業(yè)翻譯人員的貢獻(xiàn)相當(dāng)。人們?cè)趯W(xué)習(xí)的同時(shí),也在創(chuàng)造價(jià)值。還以維基百科西班牙版為例,如果將那80%英文內(nèi)容全部譯為西班牙語(yǔ),在擁有10萬(wàn)個(gè)活躍用戶的情況下只需5周時(shí)間;如果有100萬(wàn)個(gè)活躍用戶,將只要80個(gè)小時(shí)。記住,這可是個(gè)價(jià)值5000萬(wàn)美元的項(xiàng)目。
當(dāng)然,多鄰國(guó)總是要盈利的。Von Ahn曾親自在網(wǎng)上表示,其盈利模式有兩點(diǎn):一是付費(fèi)翻譯。CNN和Buzzfeed這樣的機(jī)構(gòu)會(huì)將待譯的英文內(nèi)容交給將他們,多鄰國(guó)系統(tǒng)將這些內(nèi)容發(fā)到正在學(xué)習(xí)英文的人手中,使其將新聞翻譯成各自的母語(yǔ)。CNN自然會(huì)為這些地道的文章買單;另外一點(diǎn)就是App的語(yǔ)言測(cè)試服務(wù)。大家知道,托福或者雅思考試收費(fèi)很高,而你大概只需要一兩百塊錢就可以參加多鄰國(guó)提供的語(yǔ)言水平測(cè)試。這一點(diǎn)也很有競(jìng)爭(zhēng)力。
盡管如此,我們不要忘記,這一系統(tǒng)的最大意義在于免費(fèi)面向全人類。能夠花500美元買軟件的人也許只占5%,世界上還有95%的人無(wú)法承受這一負(fù)擔(dān),卻同樣擁有學(xué)習(xí)的渴望。在創(chuàng)業(yè)過(guò)程中,這樣的商業(yè)模式與驅(qū)動(dòng)模式非常值得我們借鑒。
參考資料
【作者介紹】微信公號(hào):知社學(xué)術(shù)圈,海歸學(xué)者發(fā)起的公益學(xué)術(shù)交流平臺(tái),旨在分享學(xué)術(shù)信息,整合學(xué)術(shù)資源,加強(qiáng)學(xué)術(shù)交流,促進(jìn)學(xué)術(shù)進(jìn)步。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。