驗證碼的故事：1億人的舉手之勞能帶來什么？

本文作者：知社學術(shù)圈

2016-04-17 19:11

導語：最初的驗證碼：令人沮喪的驗證碼背后，1億人能帶來什么？

按：本文由知社學術(shù)圈士奇原創(chuàng)編譯。

如何在王珞丹里面找出白百合？如何在春哥叢中發(fā)現(xiàn)姚明？也許你曾被12306那些神奇的驗證碼所折磨，也許你曾看著那些被折磨的家伙而心中竊喜。無論怎樣的搞怪和奇葩，它們存在的根本目的其實是保護多數(shù)人的利益，維護一個正常的網(wǎng)絡環(huán)境。論壇上留言，社交網(wǎng)站里注冊賬號，或者直接在網(wǎng)上買一張火車票……驗證碼隨處可見，在一定程度上阻擋了惡意軟件的肆虐。那么，最初的驗證碼又是什么樣子呢？

｜ CAPTCHA

早在2000年，卡內(nèi)基梅隆大學的Luis von Ahn發(fā)明了一種工具，以抵制網(wǎng)絡上的不良軟件程序。假如你要在線購買車票，那么你需要過目一組扭曲的字母，并輸入正確內(nèi)容。這樣，系統(tǒng)可以將你判定為人類，而非機器程序。這就是所謂的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。

然而，隨著惡意軟件的進步，驗證碼也跟著提升了難度，這使人們在辨識圖案這件事上要花費更多的精力。偶爾，也會出現(xiàn)些令人尷尬的情形。據(jù)說Yahoo曾收到一條求救信息，詢問系統(tǒng)出現(xiàn)了“W A I T”字樣，可是他等了20分鐘卻沒有任何反應。

如果說這是一場介于網(wǎng)站和惡意程序/用戶之間的競爭，那么最大的受害者是普通用戶。據(jù)Google統(tǒng)計，每天，地球人至少要填寫2億個驗證碼。平均來講，人們搞定一個驗證碼需要10秒的時間。往往我們還會因為看不清楚而不得不換一個新的來輸入。按照這些數(shù)據(jù)計算，人類每天在驗證碼上就浪費了50多萬個小時。這實在是一件令人沮喪的事。

｜兩個驗證碼

這樣大數(shù)量級的時間浪費問題再一次激發(fā)了Luis von Ahn，他開始思考，是否有什么方法可以把這些碎片時間利用起來，哪怕僅僅是那短暫的10秒。面對如此奇妙的設想，他居然找到了答案。

如果你曾經(jīng)填寫過類似下面形式的驗證碼，那么恭喜你，盡管你可能并不知情，但實際上你在做著一件很有意義的事情——為舊書電子化。

驗證碼的故事：1億人的舉手之勞能帶來什么？

解決這一問題的傳統(tǒng)做法是直接掃描書頁，然后由計算機來辨認圖片中的文字。這就是所謂的光學字符識別 (OCR)。然而這一技術(shù)并沒有我們以為的那樣理想，對于一本50年前的舊書，計算機可正確辨識的文字甚至達不到30%。我們所看到的那些扭曲怪詞正是出自這樣的舊書。當然，這些詞匯變得扭曲只是為了抵抗那些惡意程序。

問題來了，如何判斷人們輸入的詞正確與否呢？上圖中出現(xiàn)的雙詞形式正是Von Ahn給出的解決方法。對于從舊書中提取出來的陌生詞語，計算機并不知道答案，所以也無法判斷電腦前的真人輸入的是否正確。但是系統(tǒng)可以多給出一個詞，這個詞系統(tǒng)是知道其正確文字內(nèi)容的。輸入驗證碼的用戶并不知道哪個是哪個的，只是順其自然地把兩個詞都填上。如果電腦知道正確答案的那個詞我們輸入對了，那么系統(tǒng)會判定用戶是真人，從而推斷另一個輸入的詞也是正確的。當然，這樣一次判斷是不夠的。通過重復這一過程，如果還有 (比如) 10個真人都輸入了相同的內(nèi)容，那么系統(tǒng)才會認為這個未知詞語真正得到了數(shù)字化。

驗證碼的故事：1億人的舉手之勞能帶來什么？

這就是所謂的reCAPTCHA。在國外，Ticketmaster，F(xiàn)acebook，Twitter等很多站點都曾使用過這種技術(shù)。據(jù)統(tǒng)計，通過這種方法每天可以數(shù)字化的詞匯可達1億個。也就是說，每年會有250萬本書被數(shù)字化，而這一壯舉只不過是基于我們最簡單不過的填寫驗證碼完成的。盡管reCAPTCHA較以往的驗證碼難度更大，但數(shù)據(jù)表明，人們輸入的正確率高達92%。

然而這還并非最了不起的數(shù)字。要知道，很多偉大的工程都需要耗費巨大人力。很巧的是，建造埃及金字塔，修建巴拿馬運河，或者把一個人送上月球，這些事都牽扯了大約10萬人。這也不難理解，在互聯(lián)網(wǎng)出現(xiàn)以前，調(diào)度和照顧10萬人以上是很困難的事。如今，在將人類文化與知識數(shù)字化這一工作上，通過雙詞驗證碼做出過貢獻的個人超過了7.5億，這已經(jīng)超出了世界人口的十分之一。試想，10萬人可以把一名宇航員送上月球，那么1億人能做出什么？7.5億人又能實現(xiàn)什么？

｜多鄰國 (Duolingo)

Von Ahn并沒有停下腳步，順著這條思路，他又將故事推向了新的高度。也許你聽說過多鄰國 (Duolingo)，沒錯，正是驗證碼的發(fā)明者開發(fā)了這個語言學習平臺。上億人在學習外語的同時，也在幫助翻譯資料。

我們知道，互聯(lián)網(wǎng)中的內(nèi)容大部分為英文，而其他語言盡管比例相對略低，但體量依然巨大。Von Ahn想做的事是將互聯(lián)網(wǎng)中的大部分內(nèi)容翻譯成各種主流語言。這件事目前仍無法依賴電腦來完成，原因同OCR一樣。當然，也有專業(yè)語言機構(gòu)可以提供此種服務，但問題是費用極其昂貴。我們選取維基百科為例，其西班牙語版本內(nèi)容僅為英語版內(nèi)容的20%，如果把另外80%全部翻譯為西班牙語，那么這至少需要5000萬美元。而Von Ahn則想讓上億人在不經(jīng)意間攜手完成這一壯舉。

驗證碼的故事：1億人的舉手之勞能帶來什么？

要實現(xiàn)這一點，至少需要克服兩個困難。一是需要擁有雙語能力的人；二是需要這些人有足夠的動機去做翻譯之類的事。哪一條看起來都很棘手，我們甚至不知道世界上有沒有1億人具備雙語能力，更別說引導他們?nèi)プ龇g工作。

然而有一件事正好可以一箭雙雕，那就是語言教育。如今，世界上有超過12億人在學習一門外語。單在美國，花上500美元購買語言軟件的人就超過500萬。Von Ahn卻反其道而行之，開發(fā)了Duolingo這款免費語言學習系統(tǒng)。

其基本原理在于人們免費學習語言的同時，也在翻譯內(nèi)容。無論初級還是高級用戶，系統(tǒng)會分配相當難度的語句讓你翻譯，通過比對其他用戶的翻譯結(jié)果，你不斷地學習了這些內(nèi)容。也就是說，人們都是在邊做邊學。令人驚訝的是，這一理念在實際應用中極為有效。

有趣的是，幾個初級水平的用戶合起來的效果與一名專業(yè)翻譯人員的貢獻相當。人們在學習的同時，也在創(chuàng)造價值。還以維基百科西班牙版為例，如果將那80%英文內(nèi)容全部譯為西班牙語，在擁有10萬個活躍用戶的情況下只需5周時間；如果有100萬個活躍用戶，將只要80個小時。記住，這可是個價值5000萬美元的項目。

當然，多鄰國總是要盈利的。Von Ahn曾親自在網(wǎng)上表示，其盈利模式有兩點：一是付費翻譯。CNN和Buzzfeed這樣的機構(gòu)會將待譯的英文內(nèi)容交給將他們，多鄰國系統(tǒng)將這些內(nèi)容發(fā)到正在學習英文的人手中，使其將新聞翻譯成各自的母語。CNN自然會為這些地道的文章買單；另外一點就是App的語言測試服務。大家知道，托?；蛘哐潘伎荚囀召M很高，而你大概只需要一兩百塊錢就可以參加多鄰國提供的語言水平測試。這一點也很有競爭力。

盡管如此，我們不要忘記，這一系統(tǒng)的最大意義在于免費面向全人類。能夠花500美元買軟件的人也許只占5%，世界上還有95%的人無法承受這一負擔，卻同樣擁有學習的渴望。在創(chuàng)業(yè)過程中，這樣的商業(yè)模式與驅(qū)動模式非常值得我們借鑒。

參考資料

1、articles.philly.com

2、www.ted.com

3、www.tools138.com

【作者介紹】微信公號：知社學術(shù)圈，海歸學者發(fā)起的公益學術(shù)交流平臺，旨在分享學術(shù)信息，整合學術(shù)資源，加強學術(shù)交流，促進學術(shù)進步。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。