加強版 Captcha 讓機器徹底蒙圈，正誤驗證碼傻傻分不清

本文作者：陳圳

2016-10-31 17:09

導(dǎo)語：?Captcha（全自動區(qū)分計算機和人類的圖靈測試，俗稱驗證碼）區(qū)分人和機器主要辦法，工作原理是通過提供模糊或是有歧義的圖片，并要求用戶進行回答。

Captcha（全自動區(qū)分計算機和人類的圖靈測試，俗稱驗證碼）是目前用于區(qū)分人和機器主要辦法，其工作原理是通過提供模糊或是有歧義的圖片，并要求用戶進行回答，以此來區(qū)分人和機器。而 Captcha 能有效地區(qū)分出人和機器主要是依靠以下兩個方面，一是人在面對問題難度增加時，可以隨機應(yīng)變；二是機器不能很好地文本識別。但是隨著計算機的逐漸發(fā)展，機器回答 Captcha 問題的能力逐漸超過了人類，因此，加強版 Rip Captcha 也應(yīng)運而生。

在字母識別任務(wù) circa 2005 中，計算機的識別能力已經(jīng)超過了人類，并且也征服了 Gmail 的驗證碼。盡管目前大部分的 Captchas 還是可以區(qū)分多數(shù)的機器，但是隨機計算機不斷地進化，能區(qū)分出的機器會逐漸減少。所以目前最緊急的問題是如何建立一個更好的 Captcha 系統(tǒng)，以應(yīng)對逐漸進化的計算機視覺。

來自韓國大學(xué)的兩位教授，Shinil Kwon 和 Sungdeok Cha 基于圖像基礎(chǔ)研發(fā)了新的 Captcha 系統(tǒng)。這一系統(tǒng)中的圖片會具有時效性，問題的答案會隨著時間的不同有所變化。所以，機器不能通過隨機猜測得出答案。這個系統(tǒng)的能區(qū)分人和機器的關(guān)鍵在于：在沒有試驗或是相關(guān)經(jīng)驗的情況下，機器的智能性會大打折扣。

經(jīng)典的文本識別 Captcha 系統(tǒng)不是討論的重點。我們僅僅是在假設(shè) Captcha 的答案是固定的基礎(chǔ)上，進行進一步研究。Cha 和 Kwon 的研究重點就是關(guān)注 Captcha 系統(tǒng)的下一級迭代，即從圖像中提取信息。

加強版 Captcha 讓機器徹底蒙圈，正誤驗證碼傻傻分不清

via Cha et al

Cha 和 Kwon 在 IEEE Software 上發(fā)表的論文表示：“盡管計算機視覺十分地強大，但在在語義識別方面好有所欠缺?！迸e個例子，在大量的圖片中，選擇比爾蓋茨出現(xiàn)過的圖片。盡管這一問題對于機器來說不是很難，但是我們要想一下機器每天會識別多少圖片——大概是 100 萬張。每一次試驗就代表著機器對任務(wù)有新的認識，因此在下一次識別成功的幾率就會更大。

“如果機器能僥幸通過任務(wù)測試，它們就可以記錄下所有相關(guān)信息，在未來任何的挑戰(zhàn)中都可以用得到?！盋ha 和 Kwon在論文中寫道，“或者進一步說，機器可以使用商業(yè)搜索引擎，搜索相關(guān)的圖片標(biāo)簽或是相似的圖片，加深對圖片的理解?！?/p>

Cha 和 Kwon 的解決方法是在 Captcha 系統(tǒng)中輸入一系列的圖片，其中包括正確答案，錯誤答案，并且有些正確的答案是在舊版的 Captcha 系統(tǒng)中就有涉及。一般來說，我們都會認為 Captcha 的圖片都是標(biāo)注為正確或是錯誤，但是這一新的 Captcha 系統(tǒng)還有第三種結(jié)果，中立可能性。人和機器選擇或是不選中立的答案，對于結(jié)果都不會有影響。并且，這些中立的答案會隨時改變，所以表面看盡管看起來是一樣的，但是實際上卻有所不同。

機器通過隨機猜測獲取正確答案，但是卻并不是真正意義上的學(xué)習(xí)，因為它不知道為什么錯或是為什么對。在引入新的系統(tǒng)之后，機器的隨機猜測就會變得毫無意義，因為機器在試驗時并未意識到有些答案是中立的，并且在通過測試之后，機器會直接將這一中立答案認定為正確答案加入自己的數(shù)據(jù)庫中。

此外，通過引入“陷阱”數(shù)據(jù)，這一系統(tǒng)還能進行進一步優(yōu)化?！跋葳濉睌?shù)據(jù)的實現(xiàn)是通過將中立答案與特定 IP 地址聯(lián)系起來。因為機器一般都是基于特定的 IP 地址進行識別，在之前的測試中，機器人錯將中立答案當(dāng)做正確答案，并將其加入到自己的數(shù)據(jù)庫之中。所以機器在面對同一問題時，會錯將中立答案當(dāng)做是正確答案進行回答。此外，有時錯誤的答案也會標(biāo)記成中立答案。

在測試新的 Captcha 系統(tǒng)時， Cha 和 Kwon 發(fā)現(xiàn)機器在 2,250,000 次測試中，機器的成功的幾率僅僅只有 2.3%，幾乎是接近于零?！坝捎陔S機和實時的中立圖片，機器的數(shù)據(jù)庫就不能保證所有通過測試的答案都是正確的，另外機器也不會進行錯誤更正。” Cha 和 Kwon 在文中寫到，“我們發(fā)現(xiàn)在機器的數(shù)據(jù)庫中有2,465 張圖片中（大約有19.9%）都進行了錯誤的標(biāo)記?！比嗽谠跊]有陷阱數(shù)據(jù)的情況下，成功率為 79.3%；在有陷阱數(shù)據(jù)的情況下成功率為 64.5%。人與機器的成功的幾率相差很大，所以在引入新的 Captcha 系統(tǒng)可以更有效地區(qū)分機器和人。

Via motherboard

專家解析：“小米短信云同步安全缺陷導(dǎo)致被盜10萬”，這背后究竟是誰的責(zé)任？

與惱人的驗證碼說拜拜，Google用一次點擊區(qū)分人與機器

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章