曠視首席科學(xué)家孫劍：深度學(xué)習(xí)變革視覺(jué)計(jì)算丨CCF-GAIR 2019

本文作者：張棟

2019-07-18 17:27

專題：CCF-GAIR 2019

導(dǎo)語(yǔ)：孫劍從視覺(jué)智能、計(jì)算機(jī)攝影學(xué)以及視覺(jué)計(jì)算等方面介紹了計(jì)算機(jī)視覺(jué)研究領(lǐng)域的變革。

7月12日-7月14日，2019第四屆全球人工智能與機(jī)器人峰會(huì)（CCF-GAIR 2019）于深圳正式召開。

峰會(huì)由中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)、香港中文大學(xué)（深圳）承辦，深圳市人工智能與機(jī)器人研究院協(xié)辦，得到了深圳市政府的大力指導(dǎo)，是國(guó)內(nèi)人工智能和機(jī)器人學(xué)術(shù)界、工業(yè)界及投資界三大領(lǐng)域的頂級(jí)交流博覽盛會(huì)，旨在打造國(guó)內(nèi)人工智能領(lǐng)域極具實(shí)力的跨界交流合作平臺(tái)。

7月14日，「智慧城市·視覺(jué)智能」專場(chǎng)正式拉開帷幕，本專場(chǎng)全面圍繞“未來(lái)城市級(jí)視覺(jué)AI的發(fā)展方向”這一主題展開。

會(huì)上，曠視首席科學(xué)家、研究院院長(zhǎng)、西安交通大學(xué)人工智能學(xué)院院長(zhǎng)孫劍帶來(lái)了題為《深度學(xué)習(xí)變革視覺(jué)計(jì)算》的精彩分享。

孫劍從視覺(jué)智能、計(jì)算機(jī)攝影學(xué)以及AI計(jì)算3個(gè)方面介紹了計(jì)算機(jī)視覺(jué)研究領(lǐng)域的變革。

他首先回顧了深度學(xué)習(xí)發(fā)展歷史，深度學(xué)習(xí)發(fā)展到今天并不容易，過(guò)程中遇到了兩個(gè)主要障礙：

第一，深度神經(jīng)網(wǎng)絡(luò)能否很好地被訓(xùn)練。在深度學(xué)習(xí)獲得成功之前曾被很多人懷疑，相比傳統(tǒng)的機(jī)器學(xué)習(xí)理論，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)要比數(shù)據(jù)大10倍甚至上百倍；

第二，當(dāng)時(shí)的訓(xùn)練過(guò)程非常不穩(wěn)定，論文即使給出了神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法，其他研究者也很難把結(jié)果復(fù)現(xiàn)出來(lái)。

這些障礙直到2012年才開始慢慢被解除。

孫劍認(rèn)為，深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最大的差別是，隨著數(shù)據(jù)量越來(lái)越大，使用更大的神經(jīng)網(wǎng)絡(luò)就有可能超越人類性能。

而具體到計(jì)算平臺(tái)上，目前包括云、端、芯上的很多硬件上都可以部署智能，技術(shù)發(fā)展趨勢(shì)是如何自適應(yīng)地根據(jù)計(jì)算平臺(tái)做自動(dòng)模型設(shè)計(jì)。在這方面，曠視提出了Single Path One-Shot NAS的模型搜索新方法，它分為兩步：

第一步是訓(xùn)練一個(gè)SuperNet，是一個(gè)超網(wǎng)絡(luò)，包含我們想搜索的子網(wǎng)絡(luò)，先訓(xùn)SuperNet所有的權(quán)重；

第二步是搜索Sub-Nets子網(wǎng)絡(luò)，好處是第二步不需要訓(xùn)練，非常高效。整個(gè)模型搜索時(shí)間只是正常訓(xùn)練時(shí)間的1.5-2倍，但可以得到非常好的效果。目前在多個(gè)測(cè)試集上得到了領(lǐng)先的結(jié)果。

此外，為了構(gòu)建核心技術(shù)，曠視還打造了自研的人工智能框架Brain++，包括具備多中心、強(qiáng)大算力的Brain++ Infrastructure，公司全員使用的深度學(xué)習(xí)引擎Brain++ Engine，以及整合最新模型搜索的AutoML技術(shù)；同時(shí)，曠視還有人工智能數(shù)據(jù)標(biāo)注和管理平臺(tái)Data++，借助算法輔助數(shù)據(jù)清洗和標(biāo)注。

曠視首席科學(xué)家孫劍：深度學(xué)習(xí)變革視覺(jué)計(jì)算丨CCF-GAIR 2019

曠視首席科學(xué)家、研究院院長(zhǎng)、西安交通大學(xué)人工智能學(xué)院院長(zhǎng)孫劍

以下是孫劍博士大會(huì)現(xiàn)場(chǎng)演講內(nèi)容，雷鋒網(wǎng)作了不改變?cè)獾恼砑熬庉嫞?/strong>

孫劍：謝謝大家，今天非常高興來(lái)到本次盛會(huì)，會(huì)議的火爆程度比去年高很多。這次Talk的主題是回顧深度學(xué)習(xí)對(duì)計(jì)算機(jī)視覺(jué)研究帶來(lái)的變化。

我們知道，計(jì)算機(jī)視覺(jué)在人工智能里占有非常重要的地位。人工智能可分為感知、認(rèn)知兩大部分，語(yǔ)音、自然語(yǔ)言、視覺(jué)是人工智能的三大支柱。我用不同的顏色表示不同方向的技術(shù)突破和落地程度。

曠視成立之初一直致力于計(jì)算機(jī)視覺(jué)研究，其發(fā)展如此興盛的原因與我們周圍存在的海量攝像頭有關(guān)。

我們知道，攝像頭作為一種重要載體，有非常多的應(yīng)用場(chǎng)景，這也是今天計(jì)算機(jī)視覺(jué)領(lǐng)域有非常多公司的原因之一。

今天的分享主要分為三個(gè)方面，這也是深度學(xué)習(xí)引入計(jì)算機(jī)視覺(jué)后，對(duì)我們的研究帶來(lái)的三大變革：

第一，視覺(jué)智能是回答了機(jī)器如何理解一張照片或者視頻，這方面的研究發(fā)生了哪些變化？
第二，計(jì)算機(jī)攝影學(xué)研究如何從輸入圖像生成另一幅我們期望的圖像，這個(gè)領(lǐng)域發(fā)生了哪些變化？
第三，今天的AI計(jì)算發(fā)生了哪些變化？

視覺(jué)智能

Marvin Minsky是人工智能領(lǐng)域的奠基者。他在研究人工智能之初，曾研究一個(gè)計(jì)算機(jī)視覺(jué)問(wèn)題：將一個(gè)攝像頭對(duì)著一堆積木用機(jī)械臂去抓取，以及讓機(jī)器堆放的和人擺放的一樣。

他招了幾個(gè)實(shí)習(xí)生希望能在幾個(gè)月就完成這個(gè)項(xiàng)目，但是幾年后都沒(méi)有太大進(jìn)展。這說(shuō)明計(jì)算機(jī)視覺(jué)是個(gè)非常難的課題。

計(jì)算機(jī)視覺(jué)研究雖然場(chǎng)景很多，至今可以歸類為幾個(gè)問(wèn)題：分類、檢測(cè)、分割以及將前三者用于視頻序列的識(shí)別工作。

計(jì)算機(jī)視覺(jué)尤其是語(yǔ)義理解核心是如何在計(jì)算機(jī)中表示一張照片，以至于可以操作它、理解它，用它做各種各樣的應(yīng)用。最早期的研究包括David Marr提出的 2.5D Sketch，和Part-base的表示。

90年代的神經(jīng)網(wǎng)絡(luò)主要用來(lái)做做字符識(shí)別、人臉檢測(cè)。2000年左右，類似Boosting的機(jī)器學(xué)習(xí)方法第一次引入學(xué)習(xí)特征。

2000年后最好的方法是Feature-base，從一張圖中抽取很多局部的特征，編碼成一個(gè)非常長(zhǎng)的向量。2010年深度學(xué)習(xí)后，神經(jīng)網(wǎng)絡(luò)給我們帶來(lái)了更強(qiáng)大的視覺(jué)表示方法。

深度神經(jīng)網(wǎng)絡(luò)有兩個(gè)特征：

首先，它是對(duì)一張圖片做映射，映射到一個(gè)高維空間的向量上；它由非常長(zhǎng)的非線性變換組成，進(jìn)來(lái)的信號(hào)進(jìn)行多次非線性變換，直到人們得到想要的圖像表示。

第二，這個(gè)非線性變換中的所有參數(shù)都是根據(jù)監(jiān)督信號(hào)全自動(dòng)學(xué)習(xí)的，不需要人工設(shè)計(jì)。

這是一個(gè)可視化工作，展示了神經(jīng)網(wǎng)絡(luò)在前面一些層學(xué)到了類似邊緣、角點(diǎn)或紋理等初級(jí)模式，在后面一些層學(xué)到越來(lái)越多的語(yǔ)義模式例如物體或物體部分。整體學(xué)到了分層結(jié)構(gòu)的表示。

深度學(xué)習(xí)走到今天經(jīng)歷了很多的坎坷，直到2010年才重新占據(jù)了統(tǒng)治性地位，發(fā)展過(guò)程中主要遇到了兩個(gè)障礙：

第一，深度神經(jīng)網(wǎng)絡(luò)能否很好地被訓(xùn)練。在今天深度學(xué)習(xí)成功之前很多人是不相信的。按照傳統(tǒng)的機(jī)器學(xué)習(xí)理論，深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)比訓(xùn)練數(shù)據(jù)要大10倍甚至上百倍，如何很好地學(xué)習(xí)出來(lái)，很多人不相信。
第二，當(dāng)時(shí)的訓(xùn)練過(guò)程非常不穩(wěn)定，論文報(bào)了深度學(xué)習(xí)或者神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法，別人很難把結(jié)果復(fù)現(xiàn)出來(lái)。作為一名導(dǎo)師，很難鼓勵(lì)他的學(xué)生從事這方面研究。

這兩個(gè)障礙直到2012年開始慢慢地被解除。

從2012年AlexNet，一個(gè)8 Layers的神經(jīng)網(wǎng)絡(luò)，后來(lái)有VGG, 一個(gè)19 Layers的神經(jīng)網(wǎng)絡(luò)，到了2015年，我們提出了152 Layers的神經(jīng)網(wǎng)絡(luò)。隨著網(wǎng)絡(luò)層數(shù)的增加與數(shù)據(jù)的增多，我們第一次在ImageNet數(shù)據(jù)集上讓機(jī)器超越了人類。

從ImageNet數(shù)據(jù)集建立，到打破人類的性能大概用了5-6年時(shí)間。我想當(dāng)初李飛飛教授團(tuán)隊(duì)完全沒(méi)有想象到可以這么快，機(jī)器的能力超過(guò)人的能力。

我們當(dāng)時(shí)做152 Layers網(wǎng)絡(luò)經(jīng)常被問(wèn)一個(gè)問(wèn)題：為什么這個(gè)網(wǎng)絡(luò)是152 Layers？我們的缺省的回答是當(dāng)時(shí)內(nèi)存就可以裝這么多層。

去年一個(gè)朋友給了一個(gè)更好的答案：8乘以19等于152。AlexNet是8層，VGG網(wǎng)絡(luò)是19層，所以ResNet是152層。

ResNet的核心思想是加入跳層連接，不要學(xué)習(xí)直接的映射而是學(xué)習(xí)殘差映射，這樣非常有利于訓(xùn)練或優(yōu)化。

ResNet出來(lái)后，同行給了各種各樣的解釋。這是我比較相信的解釋：而非ResNet很容易表示0映射，即輸入信號(hào)和輸出很接近0；而ResNet很容易表示Identity映射，即輸入信號(hào)和輸出很接近，直觀的理解是當(dāng)一個(gè)網(wǎng)絡(luò)非常深時(shí)，相鄰的變化越來(lái)越小。這種參數(shù)化的形式更利于學(xué)習(xí)，以至于我們神經(jīng)網(wǎng)絡(luò)的優(yōu)化更容易。

這里列出深度學(xué)習(xí)之前遇到的很多困難：

數(shù)據(jù)、計(jì)算力不夠；
如何初始化網(wǎng)絡(luò)的方式；
如何使用非線性單元等。

ResNet補(bǔ)充了一點(diǎn)：網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)當(dāng)對(duì)優(yōu)化更友好。綜合這些在深度學(xué)習(xí)方面的各種進(jìn)展，今天每個(gè)人都可以很好地重現(xiàn)結(jié)果，做出高度可重復(fù)的實(shí)驗(yàn)。

深度學(xué)習(xí)的映射能力非常強(qiáng)大，ResNet去年被用到AlphaGo Zero 中，他們用一個(gè)40或者80 Layers的ResNet，來(lái)預(yù)測(cè)棋子應(yīng)該放置的位置。下棋這么復(fù)雜的映射都可以被一個(gè)簡(jiǎn)單的ResNet很好地學(xué)到，說(shuō)明了其映射能力之強(qiáng)。

在實(shí)際過(guò)程中，在有監(jiān)督學(xué)習(xí)問(wèn)題上，深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)最大的差別在于：隨著數(shù)據(jù)量越來(lái)越大，如果用更大的網(wǎng)絡(luò)，很有可能超越人類的性能。

曠視第一個(gè)云服務(wù)的產(chǎn)品——Faceplusplus.com，提供了各種計(jì)算機(jī)視覺(jué)API，服務(wù)了全世界的開發(fā)者。

我們另一個(gè)產(chǎn)品是FaceID.com，它是目前最大的第三方身份認(rèn)證平臺(tái)，由于它遠(yuǎn)超人類的能力，目前服務(wù)于包括互聯(lián)網(wǎng)金融、銀行客服、交通出行等領(lǐng)域。

上述討論的產(chǎn)品主要應(yīng)用在云上，不用太考慮計(jì)算速度和神經(jīng)網(wǎng)絡(luò)的大小。云端模型的目標(biāo)是突破認(rèn)知邊界，看我們能做得多好。

但是在線下場(chǎng)景，很多應(yīng)用需要在移動(dòng)端或手機(jī)上運(yùn)行。在移動(dòng)端這個(gè)計(jì)算平臺(tái)上，有兩個(gè)代表性的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)可以參考：

一個(gè)是Google的MobileNet系列；
一個(gè)是曠視ShuffleNet系列。

ShuffleNet有V1和V2版本，核心是提出了一套設(shè)計(jì)原理：比如讓卷積更平衡；盡量不要產(chǎn)生分支；降低整體結(jié)構(gòu)的碎片化，避免逐元素操作。

我們的ShuffleNet V2設(shè)計(jì)性能非常出色。這是Google AI團(tuán)隊(duì)給出評(píng)測(cè)報(bào)告，他們?cè)u(píng)測(cè)ShuffleNet V2在實(shí)際運(yùn)行速度上經(jīng)常比MobileNet V2快30-50%。

由此曠視助力國(guó)內(nèi)全部一線手機(jī)廠商，做出了第一款2D人臉解鎖手機(jī)、第一款3D結(jié)構(gòu)光人臉識(shí)別解鎖手機(jī)、第一款紅外人臉解鎖手機(jī)等。

隨著端上對(duì)功耗要求更低、面積體積更小，所以需要進(jìn)一步研究如何把神經(jīng)網(wǎng)絡(luò)在芯片上高效運(yùn)行。

因此出現(xiàn)了以低比特表示為代表的一系列工作，包括DorefaNet（曠視首先提出），在低比特運(yùn)算方面，這是第一個(gè)提出將權(quán)重、激活向量、和梯度都進(jìn)行低比特化的工作。

在芯片上，比計(jì)算最大的問(wèn)題是內(nèi)存訪問(wèn)帶寬受限，需要內(nèi)存訪問(wèn)量很大程度壓下去，才可能高效運(yùn)行。

這是我們?cè)?017年推出的第一款基于FPGA的智能相機(jī)，我們把DorefaNet放在智能相機(jī)里。

2018年，我們把DorefaNet放在了一顆我們與合作伙伴聯(lián)合研發(fā)的ASIC芯片上，提供了比FPGA高非常多的性能。

它不但可以用在手機(jī)上，還能用在實(shí)時(shí)的自動(dòng)化場(chǎng)景中，用來(lái)搬運(yùn)貨架或物品，它有兩個(gè)攝像頭，朝下和朝前看，分別做車的導(dǎo)航和避障，類似室內(nèi)無(wú)人車。

攝像頭是機(jī)械臂的眼睛，它在搬運(yùn)物體需要實(shí)時(shí)識(shí)別箱子在哪里，在哪里抓取箱子。在自動(dòng)化流程過(guò)程中需要高效、高速地在端上做智能計(jì)算。

用了這些芯片的計(jì)算方法，可以應(yīng)用到非常多的智能硬件上。這張圖是都是曠視自研的硬件。

在神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的最新研究方面，目前很熱的趨勢(shì)叫AutoML或者NAS。這是一個(gè)很好的網(wǎng)站（automl.org），大家可以在這里看最新的文章。

NAS的問(wèn)題核心是解一個(gè)嵌套的權(quán)重訓(xùn)練問(wèn)題和網(wǎng)絡(luò)結(jié)構(gòu)搜索問(wèn)題。

這個(gè)問(wèn)題非常難，需要非常大的計(jì)算量。最早Google用增強(qiáng)學(xué)習(xí)或演化計(jì)算方法降低計(jì)算量，但計(jì)算量依然非常大。

最新流行的方式是用權(quán)重分享的方式，比如用Darts或ProxyLess等工作。我們曠視今年年初推出了Single Path One-Shot的新方法，分為兩步：

第一步是訓(xùn)練一個(gè)SuperNet，這是一個(gè)超大的網(wǎng)絡(luò)，任何子網(wǎng)絡(luò)是我們想搜索的網(wǎng)絡(luò)。我們先訓(xùn)SuperNet所有的權(quán)重；

第二步是做對(duì)SuperNet采樣其中的子網(wǎng)絡(luò)，好處是這一步不需要訓(xùn)練，非常高效，訓(xùn)練時(shí)間是正常訓(xùn)練時(shí)間的1.5-2倍，可以得到非常好的效果。目前在多個(gè)測(cè)試集上得到了最好效果。

我們的方法不但可以做圖像分類，也可以做物體檢測(cè)。

我們的方法還可以用來(lái)做模型簡(jiǎn)化（Pruning），同樣可以用SuperNet的方法，先訓(xùn)一個(gè)PruningNet，它相當(dāng)于一個(gè)SuperNet，由PruningNet生成很多子網(wǎng)絡(luò)，得到很多很好的Pruning的效果。

以上是今天的第一部分，說(shuō)的是視覺(jué)智能，我們從Feature的功能化定義，到走向模型的設(shè)計(jì)，再走到現(xiàn)在的模型搜索。

計(jì)算攝影學(xué)

第二部分，我想分享以前做了很多年的研究方向——計(jì)算攝影學(xué)。除了計(jì)算智能，計(jì)算機(jī)視覺(jué)中還有一個(gè)問(wèn)題是給輸入一個(gè)圖像，輸出是另一個(gè)圖像。從輸入質(zhì)量比較差的圖像（比如模糊、有噪聲、光照不好）恢復(fù)更好的圖像，這就是計(jì)算攝影學(xué)，也是目前研究很活躍的方向。

計(jì)算攝影學(xué)以前是怎么做的？這篇（上圖）是我們2009年的Dehaze去霧，引入黑通道先驗(yàn)并結(jié)合霧的物理產(chǎn)生過(guò)程來(lái)恢復(fù)沒(méi)有霧的圖像，效果非常好，并獲得了CVPR 2009最佳論文。

這是我們以前和同事一起做的（上圖），如何從一張模糊圖像和噪聲圖像恢復(fù)成清晰的圖像，這里用了很多傳統(tǒng)的反卷積方法。

這是另一問(wèn)題，被稱為圖像摳圖：左邊是輸入，右邊是輸出，目的是把前景精細(xì)分離出來(lái)。

這是我和今天第一位講者賈佳亞教授當(dāng)年聯(lián)合做的一篇文章（上圖）。

這是我和賈佳亞合作的第二篇文章（左上圖）。一張圖上缺失一部分或者想移除一個(gè)人，我們通過(guò)交互的方法，上面畫一些線；后來(lái)我們又利用Patch自然統(tǒng)計(jì)的方法，能夠做的更好。

總結(jié)一下傳統(tǒng)的計(jì)算攝影學(xué)方法：“八仙過(guò)?！保總€(gè)問(wèn)題需要尋找不同的假設(shè)，每個(gè)問(wèn)題都要單獨(dú)的去建模和求解。

不同的研究員有不同的方法，好處是你有能力的話可以做出非常有意思的方法，壞處是每一個(gè)方法都要獨(dú)立設(shè)計(jì)。

今天的深度學(xué)習(xí)的方法是拋棄了以前的做法，不需要做任何顯式的假設(shè)，通過(guò)全卷積的Encoder-Decoder輸出想要的圖像。

舉個(gè)例子，關(guān)于Image Matting問(wèn)題，今天的方法是：通過(guò)一個(gè)多任務(wù)的網(wǎng)絡(luò)，可以直接輸出Matting的結(jié)果，非常細(xì)的毛發(fā)都能提取出來(lái)。我們的工作在圖像Matting最大的兩個(gè)benchmark上都排名第一。

Matting不光可以做圖像合成，它還可以用單攝像頭就拍出像單反一樣的效果。

還有一個(gè)變革是這對(duì)相機(jī)里面的圖像信號(hào)處理器ISP(Image Signal Processor)，上面是傳統(tǒng)的圖像ISP和圖像信號(hào)處理流程，后面是AI-ISP，用一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)做。

左邊是之前，右邊是之后，AI-ISP可以得到非常好的降噪效果和高質(zhì)量的圖像。

這個(gè)方法獲得了今年CVPR圖像降噪的冠軍，同時(shí)我們將這個(gè)方法應(yīng)用在OPPO今年最新的旗艦手機(jī)OPPO Reno 10倍變焦版的夜攝超畫質(zhì)拍攝技術(shù)上。

AI計(jì)算

最后我想分享我們?cè)谟?jì)算上的變革。

左邊傳統(tǒng)的馮諾伊曼計(jì)算架構(gòu)，服務(wù)了我們很多年。但隨著數(shù)據(jù)的日益增大，出現(xiàn)了“馮諾伊曼瓶頸”，指內(nèi)存和計(jì)算單元之間搬運(yùn)數(shù)據(jù)的瓶頸。

右邊是今天神經(jīng)網(wǎng)絡(luò)做訓(xùn)練、推理的方法，它突破了這個(gè)瓶頸。因?yàn)樯窠?jīng)網(wǎng)絡(luò)計(jì)算非常簡(jiǎn)單，基本上只包含向量和矩陣之間的操作，可以避免很多判斷和分支，用大規(guī)模并行的計(jì)算方式消除瓶頸。

雖然摩爾定律慢慢消失了，AI計(jì)算能力反而在超指數(shù)增長(zhǎng)，從2016年10 TFLOPS的算力，現(xiàn)在到幾百的TFLOPS。

前期帶來(lái)的變化是從以前的大規(guī)模計(jì)算CPU Cloud（大盒子）遷移到了 GPU Box（小盒子）。但是大概2015年后，大家發(fā)現(xiàn)這些小盒子也不行，因?yàn)槲覀儸F(xiàn)在用更大的模型，我們今天在ImageNet上的模型比我們2015年用的大10倍都不止。另外，很多人一起工作時(shí)的每人一個(gè)小盒子的效率是非常低效的。

在模型大小方面，物體識(shí)別目前最權(quán)威的比賽是COCO，2017年我們得到了3項(xiàng)冠軍，隨著我們更大的模型，效果越來(lái)越好。2018年我們有更大的模型，拿下了4項(xiàng)COCO冠軍。

這么大的模型，在一個(gè)小盒子里是不行的。2018年我們提出一個(gè)方法MegDet，結(jié)論是你可以用多個(gè)計(jì)算單元，可以把訓(xùn)練速度非常高效的提高，幾乎是線性速度的加速，性能更好，這是模型的變化，是第一個(gè)方面。

數(shù)據(jù)的話也會(huì)越來(lái)越大，這是曠視和北京智源人工智能研究院共同推出的Objects365，第一階段開源超過(guò)1000萬(wàn)的標(biāo)注框，這是目前世界上最大的檢測(cè)數(shù)據(jù)集，不光是數(shù)據(jù)大，可以真正學(xué)到更好的Feature，這是第二方面。

第三方面，如果你的數(shù)據(jù)非常大無(wú)法放在小盒子里，必須放在中心。帶來(lái)的問(wèn)題是，如果我們同時(shí)訓(xùn)練，傳輸是很大的問(wèn)題，

于是，在2015年之后，我們又從小盒子又回到大盒子，但這個(gè)大盒子是是GPU或者TPU Cloud。

為了做這件事，曠視自研了我們的AI平臺(tái)Brain++，底層是物理算力，上面有Engine、Computing，Data，和AutoML。

這個(gè)Brain++ Engine是我們自研的深度學(xué)習(xí)引擎，之前大家用最多的是Caffe、TessorFlow、Pytorch，曠視從2014年研發(fā)Brain++ Engine，到現(xiàn)在曠視全員使用已經(jīng)的版本已經(jīng)是7.0版本。

據(jù)我所知，曠視是所有創(chuàng)業(yè)公司中唯一一家自研深度學(xué)習(xí)引擎并且全員使用的公司。引擎之下是計(jì)算環(huán)境，包括硬件管理，包括計(jì)算存儲(chǔ)管理、模型訓(xùn)練支持等。

最后是自動(dòng)模型搜索，也是在我們引擎中。它需要用大算力才可以把最好的模型搜索出來(lái)。

以上是我今天的分享，謝謝大家！雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

5人收藏

分享：

相關(guān)文章

AI 曠視孫劍深度學(xué)習(xí)

權(quán)龍、孫劍、林達(dá)華的視覺(jué)求索丨CCF-GAIR 2019

空間智能爆發(fā)前夜：淘金者眾，賣水人稀缺

GAIR 2025 大會(huì)首日：AI重構(gòu)教育、科學(xué)與產(chǎn)業(yè)的十三 ...

GAIR 2025 大會(huì)首日：AI重構(gòu)教育、科學(xué)與產(chǎn)業(yè)的十三 ...

專題

CCF-GAIR 2019

本專題其他文章

2019 AI 最佳成長(zhǎng)榜頒獎(jiǎng)盛宴：13熱門領(lǐng)域，52家獲獎(jiǎng)企業(yè)，見證AI新十年

王強(qiáng)：AI金融偽場(chǎng)景眾多，為何應(yīng)重倉(cāng)三維視覺(jué)與開放金融平臺(tái)？ | CCF-GAIR 2019

香港大學(xué)尹國(guó)圣教授：統(tǒng)計(jì)學(xué)家眼中的醫(yī)學(xué)AI丨CCF-GAIR 2019

ICRA 2017 大會(huì)主席陳義明教授專訪：論道機(jī)器人、AI 與工業(yè)之淵源 | CCF-GAIR 2019

科大訊飛童劍軍：用人工智能建設(shè)美好城市 | CCF-GAIR 2019

專訪華為企業(yè)BG全球智慧城市業(yè)務(wù)部總裁鄭志彬：建設(shè)古羅馬式智慧城市 | CCF-GAIR 2019

more

張棟

編輯

關(guān)注AI＋。（微信號(hào)：ZDmatt）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

最新文章

安防進(jìn)入大模型時(shí)代，依圖「求索」新十年

誰(shuí)偷走了安防人的夢(mèng)想

首發(fā)上會(huì)！5 年估值暴增超 200 億元，星宸科技闖關(guān)安防芯片

視頻物聯(lián)寒夜，這家企業(yè)想要舉起陰霾里的星星之火

從機(jī)器視覺(jué)「總裁」到軍團(tuán)「CTO」，段愛國(guó)被邊緣化了嗎？

富瀚微董事長(zhǎng)楊小奇：2021 銷售額首次突破 10 億元，智慧安防競(jìng)爭(zhēng)對(duì)手來(lái)自Sigmastar、Novatek等

熱門搜索

騰訊智能手機(jī) 比特幣直播車聯(lián)網(wǎng) 汽車移動(dòng)互聯(lián)網(wǎng)新聞支付 GAIR 今日頭條蘋果公司