依圖 CEO 朱瓏：機(jī)器識(shí)別能力三年提升一萬(wàn)倍，AI 幫助探索人類智慧邊界

本文作者：張棟

2018-05-20 10:29

導(dǎo)語(yǔ)：全中國(guó)，有除你之外的13個(gè)人，可能連你親生父母都分辨不出區(qū)別。

昨日，ACM中國(guó)圖靈大會(huì)在上海成功舉辦，依圖科技聯(lián)合創(chuàng)始人、CEO朱瓏在會(huì)上宣布了一個(gè)他們的“重大”發(fā)現(xiàn)：中國(guó)每1億人中就有一個(gè)人跟你長(zhǎng)得一模一樣；也就意味著全中國(guó)范圍內(nèi)，就有除你之外的13個(gè)人，可能連你親生父母都分辨不出區(qū)別。

一般來(lái)說(shuō)，在1：N識(shí)別比對(duì)過(guò)程中，如果是省級(jí)范圍，機(jī)器要從1億張（近似值）的人臉中來(lái)回答“你是誰(shuí)”，難度很大。如果再上升到國(guó)家層，中國(guó)人口差不多14億，從14億人次當(dāng)中將你找出，對(duì)機(jī)器識(shí)別性能的要求更高了一個(gè)量級(jí)，可能是千倍、萬(wàn)倍地增長(zhǎng)。

他表示，2015年機(jī)器識(shí)別人的水平正式超過(guò)人類；而2018年機(jī)器的水平又比2015年再提高了1萬(wàn)倍，這在學(xué)界、工業(yè)界、文藝界都難以想象。

在這期間，人們將一組組照片“喂食”給計(jì)算機(jī)，一個(gè)人20年前和現(xiàn)在的照片為一組，戴墨鏡和不戴墨鏡為一組，減肥前后為一組，整容前后為一組……告訴計(jì)算機(jī)，每一組是同一人。大量照片輸入后，計(jì)算機(jī)會(huì)反復(fù)自我學(xué)習(xí)并從中總結(jié)規(guī)律，進(jìn)行自我迭代，分辨能力日益精進(jìn)。

到今天，相關(guān)技術(shù)能夠根據(jù)人臉和眼球的數(shù)十個(gè)維度進(jìn)行精準(zhǔn)判別。在朱瓏看來(lái)，AI技術(shù)的識(shí)別突破，已經(jīng)打開了現(xiàn)實(shí)生活或者現(xiàn)實(shí)工業(yè)界中的產(chǎn)品的突破。

以下為朱瓏博士的現(xiàn)場(chǎng)演講文稿，雷鋒網(wǎng)作了不改變?cè)獾木庉嫾罢恚?/strong>

依圖是我們這一代做AI非常典型的代表，我在2012年回國(guó)，之前在美國(guó)待了十年的時(shí)間。從履歷上來(lái)講有最重要的兩段經(jīng)歷，第一段是 15年前在UCLA，UCLA的博士時(shí)期做統(tǒng)計(jì)建模和統(tǒng)計(jì)學(xué)計(jì)算，我的導(dǎo)師叫艾倫.尤爾，他的博士導(dǎo)師就是著名的理論物理學(xué)家霍金；然后在MIT的Jeff Hinton的AI Lab做計(jì)算機(jī)視覺建模；最后一段是回國(guó)前正好在深度學(xué)習(xí)爆發(fā)之前的UCLA的Yann Lecun實(shí)驗(yàn)室。

在2012年之前，我們還不太敢說(shuō)自己是做AI的，是會(huì)說(shuō)自己是做非常具體某些方向，比如統(tǒng)計(jì)建模、統(tǒng)計(jì)學(xué)習(xí)。從2012年開始，AI比較熱門，既使是在美國(guó)大家可能也不是這么恐慌。有幾張圖，從右邊開始，從這個(gè)AlphaGo上《自然》雜志到美國(guó)著名的《經(jīng)濟(jì)學(xué)人》雜志。

可以看到有了AI之后，AI可以作為世界最著名的雜志的封面文章主題，大家可以看出節(jié)奏是非常高的，而且過(guò)去兩年以來(lái)一直是全球的熱點(diǎn)，包括AI以數(shù)據(jù)為中心的這種論據(jù)，以及關(guān)于學(xué)習(xí)，關(guān)于具體人臉識(shí)別的，關(guān)于開車，關(guān)于健康醫(yī)藥等等都會(huì)成為熱點(diǎn)。我們關(guān)注的是未來(lái)到底AI能發(fā)生一些什么。

AI現(xiàn)在是處于什么時(shí)代？

一個(gè)跟過(guò)去比較重大的區(qū)別是，AI發(fā)展太快了，特別是我們中國(guó)這個(gè)技術(shù)處于一個(gè)非常難辨別清楚技術(shù)是真是假、是好是壞，或者說(shuō)如何區(qū)分。以深度學(xué)習(xí)為代表新的AI技術(shù)，過(guò)去做的人或者是做的實(shí)驗(yàn)室本身就不多，也是這幾年才開始熱起來(lái)的。全球研究的積累或者說(shuō)長(zhǎng)時(shí)間的積累是不夠的。因?yàn)闊峋褪沟酶鞣蕉紒?lái)參與到AI的這個(gè)討論或者交流甚至宣傳當(dāng)中，AI就變得特別多，客觀上使得很多專家的意見等等就很難區(qū)分開來(lái)，可能不僅是中國(guó)，美國(guó)也是這樣子。

另外一個(gè)是技術(shù)到了一個(gè)很可能沒(méi)有權(quán)威的時(shí)代。像是我們過(guò)去不管是從計(jì)算機(jī)視覺，還是整個(gè)AI，最好的實(shí)驗(yàn)室?guī)缀跄軌驂艛囝A(yù)測(cè)全球百分之七八十的進(jìn)展，但是現(xiàn)在AI無(wú)論是在美國(guó)，還是在中國(guó)，還是在歐洲，大家的發(fā)展是比較跳躍性，或者是在一兩個(gè)實(shí)驗(yàn)室非常難預(yù)測(cè)主流到底在關(guān)注什么。這是整個(gè)時(shí)代的特點(diǎn)。

從我的背景來(lái)講，既是學(xué)術(shù)界又是工業(yè)界創(chuàng)業(yè)，又是在中國(guó)2012年到2018年這五、六年非常特殊的一個(gè)階段，過(guò)去中國(guó)沒(méi)有非常成熟的科技創(chuàng)業(yè)的情景和市場(chǎng)機(jī)制。對(duì)于一個(gè)生態(tài)可能最重要的是工業(yè)界，無(wú)論是行業(yè)巨頭，還是Start-up構(gòu)成的工業(yè)界（今天以技術(shù)為主的科技界），AlphaGo不能算是廣義上的技術(shù)。政府、投資者、媒體，這三者是比較成熟的，或者是比較頻繁交流的。在2012年之前，學(xué)術(shù)界不像今天經(jīng)常會(huì)被政府邀請(qǐng)來(lái)交流，也不會(huì)被一流的基金邀請(qǐng)交流，美國(guó)過(guò)去因?yàn)槭袌?chǎng)成熟，這些人經(jīng)常會(huì)在一起交流，甚至都是朋友。中國(guó)這幾年開始，各種背景的人在一起交流的越來(lái)越多，這是新的形態(tài)。

講一下依圖科技這幾年做什么？去年，我們?cè)谌四樧R(shí)別方面有了一點(diǎn)點(diǎn)小小的成績(jī)。在美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院（NIST）舉辦的人臉識(shí)別比賽（FRVT）中獲得了冠軍。這個(gè)跟學(xué)術(shù)界的比賽稍有區(qū)別的地方是，它是美國(guó)官方的人臉識(shí)別比賽，AI算法的測(cè)試數(shù)據(jù)是刑偵數(shù)據(jù)或者出入境數(shù)據(jù)，這個(gè)數(shù)據(jù)量達(dá)到了1000萬(wàn)的規(guī)模，并且這樣的數(shù)據(jù)沒(méi)有公開出來(lái)，只能提交算法去測(cè)，主辦方公布結(jié)果，所以基本上是在看不到數(shù)據(jù)的情況下做的一個(gè)盲測(cè)，不像學(xué)術(shù)界是公開數(shù)據(jù)集的方式，是比較難的。當(dāng)然包括全球的不同人種，以及不同外觀條件或者實(shí)戰(zhàn)統(tǒng)計(jì)下來(lái)的場(chǎng)景。NIST的這個(gè)測(cè)試結(jié)果這也是在全球工業(yè)界應(yīng)用的黃金標(biāo)準(zhǔn)。

在這個(gè)基礎(chǔ)上有幾個(gè)重要的事實(shí)。2015年，機(jī)器識(shí)別人的水平正式超過(guò)人類，這是非常重要的。我們透過(guò)大量的交叉實(shí)驗(yàn)來(lái)認(rèn)證、跟人做對(duì)比，無(wú)論通過(guò)學(xué)生還我們跟招商銀行合作的刷臉取款，都要后面的客服人員來(lái)跟機(jī)器進(jìn)行結(jié)果對(duì)比，大概是在2012年就可以超過(guò)人了。

2018年機(jī)器的水平又比2015年再提高了1萬(wàn)倍，這是一個(gè)在學(xué)界、工業(yè)界、文藝界都比較難想象的一件事情，或者不能夠這么精確地知道這樣的一個(gè)方向。

技術(shù)算法在工業(yè)界到底怎么樣？從最簡(jiǎn)單的開始，2015年的時(shí)候人臉識(shí)別，機(jī)器比人強(qiáng)，更重要的一個(gè)基礎(chǔ)的應(yīng)用就是1：1的比對(duì)，就是大家理解的2017年iPhone推出來(lái)的刷臉開機(jī)。這個(gè)事情還是比較簡(jiǎn)單的，因?yàn)槭庆o態(tài)人臉面對(duì)機(jī)器，所以無(wú)論是采光的條件還是其它條件還是比較簡(jiǎn)單的。學(xué)術(shù)上我們把它叫做應(yīng)用層。

往下一層是1：N。無(wú)論什么設(shè)備，拍一下，或者是在攝像機(jī)里面捕捉到你的人臉，如果是一個(gè)省的話，1億張的人臉中來(lái)回答你是誰(shuí)。1：1是你已經(jīng)告訴機(jī)器你是張三李四，第二個(gè)場(chǎng)景是不知道你是誰(shuí)，從1億張里面辨別出來(lái)，這個(gè)難度是非常大的。

再往下一層就是說(shuō)一個(gè)省到一個(gè)國(guó)家。中國(guó)人口差不多要到14億人，從這14億當(dāng)中把你找出來(lái)，對(duì)技術(shù)的要求是非常高的。在這種場(chǎng)景下，攝像頭里面布控了幾十萬(wàn)量級(jí)的重點(diǎn)人員，來(lái)評(píng)估出現(xiàn)的人是不是重點(diǎn)人員。這個(gè)對(duì)識(shí)別性能的要求再高了一個(gè)量級(jí)，可能是千倍萬(wàn)倍地增長(zhǎng)。什么意思呢？技術(shù)的識(shí)別突破，打開了現(xiàn)實(shí)生活或者現(xiàn)實(shí)工業(yè)界中的產(chǎn)品的突破。

把這幾個(gè)事情歸納一下， 2012年之前，可以認(rèn)為人臉識(shí)別幾乎沒(méi)有什么發(fā)展，2015到2017、2018之間的發(fā)展曲線是非常非常陡的，然后再到2017年之后，我們看一下未來(lái)的發(fā)展到底是什么樣？會(huì)不會(huì)再10倍100倍地發(fā)展。不同的曲線上不同的點(diǎn)打開了工業(yè)界、生活應(yīng)用的不同場(chǎng)景。

大家現(xiàn)在有個(gè)討論，技術(shù)是是不是發(fā)展到了瓶頸，各項(xiàng)算法之間有沒(méi)有區(qū)別？這是我們中國(guó)1億人像庫(kù)的情況下，真實(shí)的比較難的刑偵案件的破案環(huán)境的一個(gè)對(duì)比的表。這有幾行，一行是我們?nèi)四槺葘?duì)的解決情況，后面幾行是其它算法提供商。最高是前20名，第一名跟前面的差距非常大。

這個(gè)是在城市不同場(chǎng)景下的應(yīng)用，首屆數(shù)字中國(guó)建設(shè)峰會(huì)期間，從機(jī)場(chǎng)到火車站，到刷臉入住到刷臉進(jìn)展館，這是第一個(gè)完全不用證件在幾萬(wàn)人規(guī)模、不同場(chǎng)景下的一種人臉識(shí)別技術(shù)的使用。

AI除了非常有用以外，還能夠幫助我們理解人類的智慧到底是什么樣子的，人類智慧的邊界是什么樣子的。我們?nèi)祟愖约涸趺磪^(qū)分人的規(guī)模和精度，到底是怎么樣的？過(guò)去是沒(méi)法做這個(gè)科學(xué)實(shí)驗(yàn)的，1萬(wàn)人還是7萬(wàn)人你辨別不出來(lái)。機(jī)器到一個(gè)非常大規(guī)模的時(shí)候，很輕易地識(shí)別1億人、10億人，甚至更多的時(shí)候，機(jī)器識(shí)別今天相當(dāng)于提供了一把尺子，我們從學(xué)術(shù)上來(lái)講就是變成這種，根據(jù)這種相似度能夠篩選出來(lái)，按照他的這個(gè)比例篩選出來(lái)給人去測(cè)，就可以測(cè)出一個(gè)人在有效的時(shí)間里面測(cè)出一個(gè)人類自己看這個(gè)世界的這種能力。

這是第一次人類有一個(gè)非常穩(wěn)定的機(jī)器，有識(shí)別能力看到人和機(jī)器智能差別到什么程度。

今天機(jī)器是有了高性能的，比人類大很多倍的這種能力，能夠幫助我們回答這些問(wèn)題。我們還做了一個(gè)實(shí)驗(yàn)，在幾千萬(wàn)量級(jí)的身份證數(shù)據(jù)庫(kù)上，一個(gè)客戶把他女朋友生活照輸入進(jìn)去，這個(gè)輸入輸出出來(lái)的前十張，他是非常難辨別哪張是他的女朋友。過(guò)去機(jī)器認(rèn)識(shí)生人會(huì)比人強(qiáng)，這個(gè)證明一件事情，一個(gè)是熟人你天天生活或者是接觸非常頻繁的人，但是現(xiàn)在識(shí)別熟人臉的話，機(jī)器也比你厲害，這是另外一個(gè)例子。

我們還做了一個(gè)非常重要的一個(gè)實(shí)驗(yàn)，就是在13億的中國(guó)人有多少跟你長(zhǎng)的一模一樣的人，一模一樣的定義是什么呢？你媽是辨別不出來(lái)誰(shuí)是誰(shuí)的這個(gè)標(biāo)準(zhǔn)。結(jié)果是，每1億人當(dāng)中有一個(gè)人跟你長(zhǎng)的一樣，所以全中國(guó)差不多12個(gè)人跟你長(zhǎng)的是一模一樣的，大概是這樣的一個(gè)情況。

這個(gè)意味著什么呢？今天我想問(wèn)題或者是跟大家分享一下，1億人當(dāng)中有一個(gè)人跟你長(zhǎng)的像，這意味著什么？或者是說(shuō)人的眼睛的辨別能力為什么不是1萬(wàn)，為什么不是10萬(wàn)，為什么不是千萬(wàn)，正好是1億這個(gè)量級(jí)？

人類進(jìn)化過(guò)程中，視覺識(shí)別能力在各大感官中的比重越來(lái)越大。可能是人類開始穿衣服了，人嗅覺識(shí)別家庭成員的能力在哺乳動(dòng)物中算是比較低下的，甚至主要就是看人臉來(lái)辨別同類。選擇壓力將驅(qū)使人類的臉之間的區(qū)分度需要盡量的大，這樣保證家庭成員的穩(wěn)定性得到保障。人作為社群動(dòng)物需要和大量同類打交道，臉部識(shí)別錯(cuò)誤的代價(jià)是失去整個(gè)基因組的遺傳繼承。對(duì)應(yīng)的編碼人臉形狀的基因數(shù)量需要很大，目前知道有一條染色體的一大塊用于編碼臉部特征。一億分之一的識(shí)別度是一個(gè)具有巨大社會(huì)學(xué)意義的統(tǒng)計(jì)數(shù)值，背后更多的生物學(xué)意義需要更近一步探討。與之對(duì)應(yīng)的一個(gè)未經(jīng)實(shí)驗(yàn)證實(shí)的觀察是，動(dòng)物的臉部特征區(qū)分度不像人類這么大。比如貓和狗，光看臉，我們很不容易區(qū)分出來(lái)。

人是一個(gè)非常社會(huì)化群居的，跟人與人交互非常多的這種社會(huì)形態(tài)，人臉對(duì)于身份的確認(rèn)是非常重要的，所以人類如果不具備辨別能力，你可能在出門回來(lái)之后你認(rèn)不出你的小孩，認(rèn)不出你的老婆，就會(huì)出現(xiàn)社會(huì)的騷亂，所以人臉識(shí)別對(duì)基因的進(jìn)化是非常大的影響。

最后講一下，我們?cè)谥袊?guó)做科學(xué)研究也好，做創(chuàng)業(yè)也好，我剛才舉的例子，不管是在應(yīng)用者，還是商業(yè)決策，我們有這個(gè)實(shí)踐，有這種世界級(jí)的命題，命題的高度直接決定了公司的高度，而不是取決于你的聰明，或者說(shuō)不止是你的聰明才智、你是不是從MIT畢業(yè)的。希望今天的感受能夠分享給大家，謝謝。雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

分享：

相關(guān)文章

AI 依圖人臉識(shí)別

AI 的下一個(gè)戰(zhàn)場(chǎng)：小模型崛起

淘寶店小蜜AI能力全面升級(jí)，可精準(zhǔn)預(yù)判消費(fèi)意圖并自 ...

阿里國(guó)際站在美國(guó)舉辦全球最大的B2B中小企業(yè)峰會(huì)CoC ...

出貨量全球第一、牽手 Bang & Olufsen，雷鳥創(chuàng)新開啟 ...

張棟

編輯

關(guān)注AI＋。（微信號(hào)：ZDmatt）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

最新文章

OpenAI 推出 GPT-4.1，撞期智譜Z.ai

DeepMind公布AI4S最新進(jìn)展：DeepMind的AlphaFold一年就畫了2億個(gè)蛋白質(zhì)！

阿里通義 Qwen3 上線，開源大軍再添一名猛將

讓大模型和醫(yī)生搭檔，螞蟻AI醫(yī)療的「少數(shù)派」之路

字節(jié)游戲，重啟的 365 天

SPARK2025，騰訊游戲的焦慮與野望

熱門搜索

馬化騰醫(yī)療AI WWDC 創(chuàng)新 paypal 新基建中國(guó)電信蔚來(lái)汽車 AI教育處理器 PS4

依圖 CEO 朱瓏：機(jī)器識(shí)別能力三年提升一萬(wàn)倍，AI 幫助探索人類智慧邊界

依圖 CEO 朱瓏：機(jī)器識(shí)別能力三年提升一萬(wàn)倍，AI 幫助探索人類智慧邊界