1
本文作者: 張棟 | 2019-08-09 18:00 |
“AI 新時(shí)代,我們?cè)撽P(guān)注什么?”
剛剛,在廈門人工智能峰會(huì)上,依圖科技聯(lián)合創(chuàng)始人朱瓏出席演講并丟出了這個(gè)終極疑問。
在他看來,文明的變遷靠的是科技的推動(dòng),科技推動(dòng)就是基礎(chǔ)設(shè)施的革命;基礎(chǔ)設(shè)施提升的關(guān)鍵在于:提升一個(gè)區(qū)域或者一個(gè)城市的智能密度。
智能密度可以分為兩個(gè)維度考量:
宏觀上,要從單體的機(jī)器智能到群體的智能。比如說一個(gè)攝像頭能夠識(shí)別人臉的數(shù)量從100個(gè)到1000個(gè)、1萬個(gè)。而且這1萬個(gè)攝像頭能夠相互交流,互相對(duì)話,并且它們識(shí)別出來的信息是可決策的。
微觀上,單個(gè)計(jì)算機(jī)能夠支撐的智能算力要足夠大,這里的智能算力不是簡(jiǎn)單的機(jī)器算力。
高級(jí)的算法可以用更少的機(jī)器算力實(shí)現(xiàn)更高的智能。總之:算力和算法兩者決定了智能的密度,而提升智能密度是普及AI的關(guān)鍵。
朱瓏總結(jié),從感知智能到認(rèn)知智能,未來還會(huì)出現(xiàn)一個(gè)新物種:機(jī)器智能,它會(huì)慢慢地具備人類的智能。
機(jī)器智能的發(fā)展可以分成幾個(gè)階段:
1、記錄功能,沒有任何的識(shí)別能力;
2、可識(shí)別,比如說攝像頭能夠識(shí)別人臉;
3、可關(guān)聯(lián),不同攝像頭之間識(shí)別出來的信息之間的關(guān)系是什么?怎么判斷?
4、可預(yù)測(cè)、可預(yù)判;
5、可規(guī)劃。
他篤信,隨著數(shù)據(jù)、算法、存儲(chǔ)、算力和傳輸?shù)然A(chǔ)設(shè)施的不斷提升,AI在未來幾年會(huì)有更為革命性的發(fā)展,讓智能文明社會(huì)加速到來。
以下是朱瓏的全部演講內(nèi)容,雷鋒網(wǎng)AI掘金志做了不改變?cè)獾恼砼c編輯:
人工智能為什么重要?
中國(guó)和美國(guó)都把AI作為國(guó)家戰(zhàn)略,今天廈門人工智能峰會(huì)以及多媒體信息識(shí)別技術(shù)競(jìng)賽的舉辦也印證了這一點(diǎn)。
人工智能是世界創(chuàng)新的源動(dòng)力,依圖很榮幸能夠參加這次競(jìng)賽,為國(guó)家創(chuàng)新貢獻(xiàn)我們的力量。
此前我們參加了三年美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局(NIST)舉辦的人臉識(shí)別供應(yīng)商測(cè)試(FVRT),也獲得了三次冠軍,深知舉辦這類賽事的不易,在此向本次比賽的組織者和執(zhí)行人員致敬。希望廈門能夠成為人工智能發(fā)展標(biāo)準(zhǔn)和方向的引領(lǐng)者,成為人工智能思想交流的高地。
我簡(jiǎn)單介紹一下我的背景,從中也能看出美國(guó)研究人工智能的不同學(xué)派。
我在美國(guó)待了十年,我的三位導(dǎo)師,一個(gè)是理論物理出身的 Alan Yuille,他也是霍金的學(xué)生。
第二個(gè)是我在麻省理工大學(xué)人工智能實(shí)驗(yàn)室讀博士后的老板Bill Freeman,他也是在今年4月人類首次拍攝到黑洞照片研究小組的領(lǐng)導(dǎo)者。
第三位大家可能比較熟悉了,紐約大學(xué)教授 Yann LeCun,他是推動(dòng)這一輪人工智能浪潮興起的技術(shù)——深度神經(jīng)網(wǎng)絡(luò)的其中一位奠基人,他也因此獲得了2018 年的圖靈獎(jiǎng)。
由此可見,在美國(guó)從物理到深度神經(jīng)網(wǎng)絡(luò)再到腦科學(xué),不同領(lǐng)域的頂級(jí)專家都在研究人工智能,他們推動(dòng)了過去幾十年人工智能的發(fā)展,讓AI有了今天這個(gè)基礎(chǔ)。
那么,人工智能發(fā)展現(xiàn)在處于一個(gè)怎樣的狀態(tài)?
剛才高文院士有講到人類智能的演化用了大約630萬年。我總結(jié)了人類文明的變遷:從人類直立行走到形成最原始的社會(huì)形態(tài),再到1 萬年前的農(nóng)業(yè)革命,工業(yè)革命我們花了200年,而人工智能從一九五幾年開始到現(xiàn)在,也就60多年的時(shí)間,人類的文明史或者是地球的文明史大致就是這么一個(gè)區(qū)分。
從眼睛看到這個(gè)世界的感知智能到語言也即認(rèn)知智能的誕生,到今天很可能出現(xiàn)一個(gè)新的物種,那就是機(jī)器,它慢慢地具備了人類的智能。
當(dāng)機(jī)器的智能曲線與人類的智能曲線交叉甚至超過的時(shí)候,文明的形態(tài)會(huì)是什么?這非常值得我們遐想和憧憬或者是思考。
我今天給出最重要的一個(gè)觀點(diǎn)就是:文明的變遷靠的是科技的推動(dòng),科技推動(dòng)就是基礎(chǔ)設(shè)施的革命。
這里我列舉了一些不同文明時(shí)代的基礎(chǔ)設(shè)施,從剛才談到的發(fā)明火到使用文字,農(nóng)業(yè)文明時(shí)期有了輪子、道路;
工業(yè)文明出現(xiàn)了蒸汽機(jī)、內(nèi)燃機(jī),有了鐵路;
信息文明,也就是我們過去30年的互聯(lián)網(wǎng)時(shí)代,出現(xiàn)了計(jì)算機(jī)、PC、互聯(lián)網(wǎng)、手機(jī),人類克服了時(shí)空的障礙。
這幾個(gè)最重要的基礎(chǔ)設(shè)施的變革,見證了文明的變遷。
我們現(xiàn)在處于什么時(shí)代?我們這個(gè)時(shí)代的基礎(chǔ)設(shè)施又是什么呢?
過去30年,CPU運(yùn)算能力提升了100萬倍,存儲(chǔ)能力也提升了100萬倍,通訊能力也即數(shù)據(jù)的傳輸速度提升了100萬倍。我們現(xiàn)在是站在過去30年的基礎(chǔ)上來看接下來發(fā)展的基礎(chǔ)。
智能時(shí)代只談開始的時(shí)間可能定義得不清楚,這里只談2019年回溯回去的過去五年,我們發(fā)生了什么、五年前是什么。
AlphaGo在2015年的時(shí)候超過人類的那一天,也是機(jī)器以計(jì)算機(jī)視覺為代表超過人類的那一天,大家可能記憶猶新。
人工智能現(xiàn)在已經(jīng)非?;鹆?,但就是這火的過去五年,機(jī)器又發(fā)生了什么呢?機(jī)器的算法水平又提升了100萬倍,什么意思呢?
就是人臉識(shí)別為代表的錯(cuò)誤率又下降了100萬,它可以從1萬人當(dāng)中識(shí)別、1000萬人當(dāng)中識(shí)別、 1億人當(dāng)中識(shí)別出你,10億人當(dāng)中識(shí)別你,甚至20億人當(dāng)中識(shí)別你,這是已經(jīng)看似超過人類的那個(gè)時(shí)刻之后,它又提升了100萬倍,算力提升了10萬倍。
從過去我們用1萬量級(jí)規(guī)模的數(shù)據(jù)做訓(xùn)練,到百萬規(guī)模的數(shù)據(jù)做訓(xùn)練,到現(xiàn)在用10億的數(shù)據(jù)集做訓(xùn)練,又提升了1萬倍,速度是非??斓?。
基礎(chǔ)設(shè)施現(xiàn)在處于一個(gè)什么水平?當(dāng)前發(fā)展了這么多, AI處于什么樣的一個(gè)水平呢?
我這里用比較通俗的一個(gè)語言講一下:人不需要思考、本能地一眼瞄過去,能看見的、能說清楚的、能看懂的,這是機(jī)器可以看到的。
比如說這里有人,有座位,這個(gè)是機(jī)器可以看清楚的。但這么遠(yuǎn)要識(shí)別清楚,可能有點(diǎn)難,比如這里有多少個(gè)人?可能要數(shù)一數(shù),誰跟誰近,這個(gè)會(huì)坐在旁邊認(rèn)識(shí),可能要想一想,機(jī)器還不一定能做好。
機(jī)器可以聽懂什么?就一下能聽懂的語音識(shí)別,理解一句話、一個(gè)段落可能就變得困難,對(duì)一個(gè)文章的理解還比較困難。非常低階的智能機(jī)器已經(jīng)可以或者接近可以了。我們覺得智能要往下躍遷,最重要的就是提升基礎(chǔ)設(shè)施,我后面會(huì)講基礎(chǔ)設(shè)施是什么。
我把機(jī)器智能分成幾個(gè)階段:
第一個(gè)就是記錄功能,沒有任何的識(shí)別能力;第二個(gè)是可識(shí)別,比如說攝像頭能識(shí)別人臉;到第三個(gè)可關(guān)聯(lián),不同的攝像頭之間識(shí)別出來信息之間的關(guān)系是什么?怎么判斷?這是有關(guān)聯(lián)性。第四個(gè)是可預(yù)測(cè)、可預(yù)判。第五個(gè)是可規(guī)劃。大概分這個(gè)級(jí)別。
我們覺得智能的提升是在基礎(chǔ)設(shè)施的提升上。
我舉城市管理的一個(gè)例子,因?yàn)槌鞘泄芾懋?dāng)中包括安防攝像頭的覆蓋,把剛才講的五級(jí)智能做一個(gè)分類,從最簡(jiǎn)單的代替人記錄,可追溯、到可檢索、可關(guān)聯(lián),代替人的推理與決策,代替人統(tǒng)籌,分成幾個(gè)級(jí)別。
右邊這一列是說達(dá)到這些級(jí)別的提升,我們要怎么做。是需要最簡(jiǎn)單的一定程度下的稀疏攝像頭的識(shí)別率和到最高到20萬個(gè)攝像頭基本的一個(gè)覆蓋。
這里可以看到我們的感知需要增加密度,我們的算力需要增加識(shí)別的能力,就慢慢地就在整個(gè)城市規(guī)模上,它有智能等級(jí)的躍遷。
這是一個(gè)空間布局的感覺,當(dāng)密度達(dá)到一定程度的時(shí)候,就可以在空間上或者一個(gè)關(guān)鍵場(chǎng)所的圍欄上,形成自己的新的高階的智能,比如看軌跡怎么發(fā)生、事件怎么建模。
我們提了一個(gè)概念:基礎(chǔ)設(shè)施提升的關(guān)鍵在于,提升一個(gè)區(qū)域或者一個(gè)城市的智能密度。
分兩個(gè)維度來解釋,一個(gè)是宏觀上,單體智能要變成群體智能,一個(gè)攝像頭的智能要變成1萬個(gè)攝像頭的智能,他們之間識(shí)別出來的內(nèi)容是能夠匯聚在一起,能夠形成一個(gè)新的、大的智能體。
微觀上,要普及成從一個(gè)到1萬個(gè),甚至10萬個(gè),微觀上的算力要急劇提升,才能有經(jīng)濟(jì)性,或者說性價(jià)比較高的基礎(chǔ)能夠普及開來。
我們5月份發(fā)了一款A(yù)I芯片,這是云端的一個(gè)視覺芯片,一塊芯片能夠支撐50個(gè)攝像頭的算力,那一臺(tái)1U的服務(wù)器可以支撐約兩百路攝像頭的算力,比同類的市面上最先進(jìn)的英偉達(dá)的方案提高5到10倍的性價(jià)比。
一個(gè)是它的能耗降低了非常多,空間降低了非常多,降低多少呢?
一個(gè)機(jī)柜能夠支撐一萬路攝像頭的全解析的功能,且機(jī)柜中有空間的限制、電的限制、能源的限制、算力的限制,這是在一個(gè)城市在做城市的智能等級(jí)的提升上面,有了非常重要的基礎(chǔ)設(shè)施的準(zhǔn)備。由此,我們就可以打開城市管理的豐富的場(chǎng)景。
這里列了大概18個(gè)場(chǎng)景,包括機(jī)場(chǎng)、火車站等等,可以解鎖更多的應(yīng)用。
我們認(rèn)為,今天從算法的成就到算法的提升,到我們整個(gè)城市或老百姓都能感知到,點(diǎn)亮AI就是要在基礎(chǔ)設(shè)施上做重大的提升,包括剛才高院士提到的人才資本和政策以外。
我們認(rèn)為基礎(chǔ)設(shè)施就是數(shù)據(jù)、算法、存儲(chǔ)、算力和傳輸,它們一定會(huì)在未來的幾年會(huì)進(jìn)一步以三倍、十倍的速度再加大速度提升,這才是革命性的,這個(gè)會(huì)讓智能文明更快速的到來。
這是我們的一個(gè)小小的愿景,也是希望能夠在廈門以10萬路的視覺中樞為基礎(chǔ),助力廈門成為全球智能密度最高、智能等級(jí)最高的城市。謝謝大家。雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。