0
本文作者: 余快 | 2020-08-11 09:36 | 專題:CCF-GAIR 2020 全球人工智能與機器人峰會 |
2020 年 8 月 7 日,全球人工智能和機器人峰會(CCF-GAIR 2020)正式開幕。CCF-GAIR 2020 峰會由中國計算機學(xué)會(CCF)主辦,雷鋒網(wǎng)、香港中文大學(xué)(深圳)聯(lián)合承辦,鵬城實驗室、深圳市人工智能與機器人研究院協(xié)辦。
作為粵港澳大灣區(qū)最具影響力和前瞻性的前沿科技活動,CCF-GAIR 大會已經(jīng)度過了四次精彩而又輝煌的歷程。
在大會第二日的「視覺智能·城市物聯(lián)」專場中,組委會特地邀請了這個行業(yè)里極少數(shù),能夠利用前沿技術(shù),真正為產(chǎn)品和業(yè)務(wù)創(chuàng)造巨大價值的頂級專家。與他們一同站在高處,重新理解視覺智能與城市級商業(yè)場景的本質(zhì)。
今年出席的嘉賓,分別有華為云人工智能領(lǐng)域首席科學(xué)家田奇、京東集團(tuán)技術(shù)副總裁梅濤、微軟亞洲研究院首席研究員王井東、商湯科技聯(lián)合創(chuàng)始人林達(dá)華、云天勵飛首席科學(xué)家王孝宇、澎思科技首席科學(xué)家申省梅、暗物智能CEO林倞。
主持人也不禁感慨到:連續(xù)四年主持此專場,作為局外人,自己親歷了計算機視覺最為激蕩的年代,也在CCF-GAIR的舞臺上親眼見證了商湯、曠視、云從、云天勵飛、澎思等企業(yè),從一個個初創(chuàng)公司,生長為現(xiàn)在的頭部獨角獸,實現(xiàn)了10多倍的增長。
這正是這個時代,給予前沿技術(shù)創(chuàng)新企業(yè)的最好饋贈。
華為云人工智能領(lǐng)域首席科學(xué)家田奇:華為視覺研究計劃與進(jìn)展
田奇介紹了華為在人工智能領(lǐng)域的十大愿景和計算機視覺領(lǐng)域的基礎(chǔ)研究,從中梳理出深耕基礎(chǔ)研究、打造全棧方案、投資開放生態(tài)和人才培養(yǎng)、解決方案增強、內(nèi)部效率提升五大方向。以此打造無所不及的AI,構(gòu)建萬物互聯(lián)的智能世界。
華為計算機視覺以數(shù)據(jù)高效和能耗高效為核心,聚焦從2D視覺到3D視覺的技術(shù)和應(yīng)用,其中基礎(chǔ)研究主要包含底層視覺、語義理解、三維視覺、數(shù)據(jù)生成、視覺多模態(tài)等等方面。在此方向上,華為將基礎(chǔ)研究聚焦到數(shù)據(jù)、模型和知識三大挑戰(zhàn):
1、數(shù)據(jù)上,如何從海量的數(shù)據(jù)中挖掘有用的信息。田奇從深層數(shù)據(jù)模型訓(xùn)練和不同模態(tài)數(shù)據(jù)對齊這兩個應(yīng)用場景為例,介紹了華為如何使用知識蒸餾與自動數(shù)據(jù)擴增結(jié)合的方法讓AI模型高效地挖掘數(shù)據(jù)中的有用信息。
2、模型上,怎樣設(shè)計高效的視覺模型。田奇認(rèn)為在深度學(xué)習(xí)年代,視覺模型主要包含神經(jīng)網(wǎng)絡(luò)模型設(shè)計和神經(jīng)網(wǎng)絡(luò)模型加速兩個場景。具體地,田奇介紹了華為如何通過局部連接思路解決網(wǎng)絡(luò)冗余問題、如何加入邊正則化思想來解決局部連接帶來的不穩(wěn)定性等等。
3、知識上,如何定義視覺預(yù)訓(xùn)練模型、如何通過虛擬環(huán)境學(xué)習(xí)知識、如何表達(dá)并存儲知識。為了實現(xiàn)華為打造通用視覺模型的目標(biāo),田奇認(rèn)為推理預(yù)測是從視覺感知到認(rèn)知的關(guān)鍵步驟。雖然預(yù)訓(xùn)練方法目前在視覺領(lǐng)域的應(yīng)用還不成熟,但是近期自監(jiān)督學(xué)習(xí)的成果為視覺通用模型的發(fā)展注入了新活力,這也將成為常識學(xué)習(xí)的必經(jīng)之路。
基于三大挑戰(zhàn),田奇提出華為視覺六大研究計劃:數(shù)據(jù)冰山計劃、數(shù)據(jù)魔方計劃、模型摸高計劃、模型瘦身計劃、萬物預(yù)視計劃、虛實合一計劃,來幫助每一位AI開發(fā)者。
京東AI研究院副院長梅濤:智能供應(yīng)鏈中的機器視覺
梅濤認(rèn)為供應(yīng)鏈發(fā)展經(jīng)歷了三個階段:
第一階段,上世紀(jì)90年代,傳統(tǒng)供應(yīng)鏈的信息技術(shù)將產(chǎn)業(yè)的上下游進(jìn)行協(xié)同;第二階段,21世紀(jì)初期,互聯(lián)網(wǎng)工業(yè)階段,利用互聯(lián)網(wǎng)技術(shù)提高供應(yīng)鏈的效率和敏捷性;第三階段,21世紀(jì)及未來,智能供應(yīng)鏈階段,生產(chǎn)上更加協(xié)同,流通上更加敏捷,甚至可以通過用戶需求驅(qū)動生產(chǎn),又反過來創(chuàng)造需求。
梅濤指出,中國供應(yīng)鏈水平仍處于第一階段向第二階段過渡時期。作為“以供應(yīng)鏈為基礎(chǔ)的技術(shù)與服務(wù)企業(yè)”,京東在不斷夯實第一階段到第二階段轉(zhuǎn)型的同時,積極布局第三階段,基于人工智能,利用大數(shù)據(jù)、物聯(lián)網(wǎng)、區(qū)塊鏈等,打造基于各種技術(shù)與服務(wù)的供應(yīng)鏈全鏈條。
京東在智能供應(yīng)鏈領(lǐng)域的計算機視覺應(yīng)用非常多。智能消費領(lǐng)域,通過SKU級別商品圖片理解,打造智能結(jié)算臺、京東拍照購、京東搭配購等應(yīng)用。在實際場景中,通過硬件和軟件一體化,幫助線下門店進(jìn)行一體化營銷。
智能流通領(lǐng)域,京東還推出了首個產(chǎn)業(yè)級通用目標(biāo)重識別開源庫FastReID。
智能生產(chǎn)領(lǐng)域,應(yīng)用于工業(yè)視覺質(zhì)檢,比如,印刷品包裝檢測中,通過內(nèi)容識別、設(shè)計校對、字號識別,以檢測包裝是否符合嚴(yán)格的標(biāo)準(zhǔn),另外還有基于CMYK色彩控健康識別,缺陷監(jiān)測和尺寸識別。
梅濤提到,智能供應(yīng)鏈需要全鏈條的生態(tài),京東擁有全行業(yè)最長的數(shù)據(jù)鏈條以及最全的供應(yīng)鏈服務(wù)。京東不僅要服務(wù)于自己內(nèi)部的客戶,還基于人工智能開放平臺,開放技術(shù),共建生態(tài)。
最后,梅濤分享了他對下一代視覺技術(shù)趨勢的看法,他認(rèn)為計算機視覺經(jīng)歷過萌芽、爆炸、巔峰,現(xiàn)在回歸理性,未來將在數(shù)據(jù)、模型、學(xué)習(xí)機制和工具箱四個層面有長足進(jìn)步。
云天勵飛首席科學(xué)家王孝宇:AI 在智慧城市中的應(yīng)用
王孝宇認(rèn)為,在經(jīng)歷了PC互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時代后,現(xiàn)在人們正在進(jìn)入AIoT時代。在AIoT時代,傳感器將遍布物理世界,人們將擁有無處不在的連接和智能化應(yīng)用。而AIoT時代到來的前提,是業(yè)界能提供有效的數(shù)字化技術(shù)。在物理世界的行為,只有經(jīng)過數(shù)字化后,才能稱為“信息”,有了信息,機器才能更好地描述這個世界,并對物理世界作出反應(yīng)。
根據(jù)AI技術(shù)發(fā)展升級的路徑,王孝宇將智慧城市分為四大階段。
第一階段是Sensing(感知),這個階段的智慧城市能做到的是描述物理社會的基本事實,比如識別圖像中的物體是車輛還是人、車牌號是多少、這個人有什么特征。第二階段是Cross Analysis(交叉分析),這個階段機器能夠在識別基本信息的基礎(chǔ)上,根據(jù)時間、空間等其他信息進(jìn)行交叉分析,得出更豐富的信息,比如分析出圖片中的人之間的關(guān)系等。第三階段是Data Mining(數(shù)據(jù)挖掘),這個階段,機器能分析出造成事件的深層次原因,甚至預(yù)測事件的發(fā)生,比如預(yù)測某路段在某時間段的擁堵情況。第四階段是Decision Making(決策),即機器能夠幫助人作出某些決策,比如預(yù)測到某街區(qū)在某時間段可能發(fā)生某些事件后,進(jìn)行智能的警員調(diào)度,充分安排有限的警力。
王孝宇還說到,盡管智慧城市不同階段能夠?qū)崿F(xiàn)的應(yīng)用不同,但無論是在哪一階段,都離不開算法、算力和大數(shù)據(jù),這也是云天勵飛從創(chuàng)立之初就一直堅持在這三大方面投入大量研發(fā)工作的原因。目前,云天勵飛有Arctern算法平臺、Moss芯片平臺和Matrix大數(shù)據(jù)平臺,構(gòu)建了完整的AI技術(shù)鏈路,并聚焦公共安全、城市治理、新商業(yè)這三大方向打造產(chǎn)品和解決方案。
最后,王孝宇認(rèn)為,中國經(jīng)歷過商貿(mào)造富、互聯(lián)網(wǎng)和房地產(chǎn)造富的時代,未來我們很可能迎來科技造富的時代,科技將成為新基建中的核心元素。新基建的提出,也將開啟中國新一輪智慧城市建設(shè)的“黃金時代”,新基建將會帶來“新四化”:居民數(shù)字化生活、企業(yè)數(shù)字化經(jīng)營、社區(qū)數(shù)字化治理、城市數(shù)字化孿生。
暗物智能CEO林倞 :從感知到認(rèn)知 - 多模態(tài)人機互動的產(chǎn)業(yè)實踐
現(xiàn)在人工智能發(fā)展到了什么階段?
阿里巴巴達(dá)摩院今年年初給到的科技趨勢報告顯示,人工智能已經(jīng)在聽、說、看等感知領(lǐng)域達(dá)到甚至超越了人類的水平,但在需要外部知識,邏輯推理或領(lǐng)域遷移的認(rèn)知智能領(lǐng)域還處于初期階段。
林倞指出,目前很多成功的人工智能應(yīng)用大部分還是依賴于大數(shù)據(jù)計算泛式。不管是自監(jiān)督還是網(wǎng)絡(luò)搜索的方法,本質(zhì)上依靠大量的數(shù)據(jù),通過億萬參數(shù)的神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)和訓(xùn)練,最后進(jìn)行分類和回歸。某種意義上,人工智能的應(yīng)用成本一直居高臨下。
同時,即便是感知層的智能,特別是計算機視覺,目前系統(tǒng)還有很大的局限性,一是成本問題,二是穩(wěn)定性、魯棒性并沒有達(dá)到或真正超越人的水平。
腦科學(xué)研究發(fā)現(xiàn),人的大腦皮層感知區(qū)和認(rèn)知推理區(qū)域是不可分割的,視覺跟語言的大部分理解是依靠想象和推測的,并不是依靠大數(shù)據(jù)的感知,所以林倞提出一個觀點:感知智能和認(rèn)知智能不可分割。
一個嬰兒12個月以后會說話,會推測他人的意圖。目前AI的智力水平不足12個月大的嬰兒,還遠(yuǎn)未達(dá)到認(rèn)知智能,AI系統(tǒng)欠缺的推測他人的意圖(能力)。
林倞的第三個觀點是,所謂的認(rèn)知人工智能必須要理解人的意圖,懂因果,可解釋。
可以通過豐富的方式跟人交互,能看到,能聽懂,能回復(fù),甚至能知道計算數(shù)學(xué)背后的因果邏輯,這樣才能實現(xiàn)從感知到認(rèn)知的跨越,并且跟人進(jìn)行高自然度的交互。
林倞介紹了暗物智能的五層技術(shù)架構(gòu):物聯(lián)網(wǎng)、感知行為、問題理解、思維和意圖、價值和常識。暗物智能沿著此技術(shù)架構(gòu)進(jìn)行產(chǎn)業(yè)實踐。
澎思科技首席科學(xué)家申省梅:基于遷移學(xué)習(xí)的視覺智能發(fā)展與應(yīng)用
申省梅從傳統(tǒng)機器學(xué)習(xí)的痛點、深度學(xué)習(xí)帶來的突破、深度遷移學(xué)習(xí)、遷移學(xué)習(xí)中用到的一些技術(shù)和實例方面進(jìn)行了分享,并分析了遷移學(xué)習(xí)在視覺智能的需求。
傳統(tǒng)機器學(xué)習(xí)的痛點之一是泛化能力差,原因之一是它使用手工特征,靠設(shè)計者的經(jīng)驗得到,并無法掌握數(shù)據(jù)中的非線性變化,每種特征只能對特定的場景或特定的任務(wù)有效。泛化能力差導(dǎo)致魯棒性差,落地成本高,用戶滿意度差。
深度學(xué)習(xí)的特征是通過大量數(shù)據(jù),用深度神經(jīng)網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)到的,可以完全掌握到數(shù)據(jù)當(dāng)中的多種變化。深度學(xué)習(xí)模型為計算機視覺帶來的突破,也是在給定的數(shù)據(jù)集上訓(xùn)練出來的,可以很好地反映給定數(shù)據(jù)的特點。
而給定的數(shù)據(jù)集僅僅代表了某一領(lǐng)域,某些應(yīng)用場景,某種特定任務(wù),比如CCTV監(jiān)控下的自然圖像領(lǐng)域,戶外場景,任務(wù)是人臉識別,或行人再識別,或行為分析。
盡管在這些特定數(shù)據(jù)集訓(xùn)練的模型具有很高的準(zhǔn)確性,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)機器學(xué)習(xí),但在新的場景下它的性能無法維持,并且在用于新任務(wù)的時候可能會導(dǎo)致性能顯著下降。深度學(xué)習(xí)的突破仍然取決于數(shù)據(jù)。
另外,申省梅還指出深度學(xué)習(xí)AI落地痛點:
1、感知環(huán)境及應(yīng)用場景的千變?nèi)f化:天氣、光線、角度、遮擋等因素變化導(dǎo)致成像質(zhì)量不同并且質(zhì)量不佳;訓(xùn)練數(shù)據(jù)與落地場景的不一致導(dǎo)致AI模型性能徒然下降;
2、重新訓(xùn)練模型需要大量的AI專業(yè)人才來完成,周期長成本高見效慢,已經(jīng)成為AI普惠的障礙;
3、AI人才的短缺以及成本昂貴會阻礙企業(yè)采納人工智能以及它帶來的效益。
澎思的使命是“AI即服務(wù)”,可以解決痛點,實現(xiàn)普惠AI,澎思通過AIOT平臺生態(tài)技術(shù)部署,實現(xiàn)“AI服務(wù)在線+AI功能定制終端+自閉環(huán)生態(tài)”。
通用智能是下一代AI發(fā)展的必然趨勢,申省梅表示,澎思會在遷移學(xué)習(xí)、無監(jiān)督、自監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)、多模態(tài)學(xué)習(xí)這幾個真正反映AI落地的實際情況下落地生根。
澎思的目標(biāo)是在算法技術(shù)上走在國際計算機視覺的前沿,基于AI落地為主的前沿技術(shù)開發(fā),建設(shè)云端AI在線遷移學(xué)習(xí)平臺,加強端側(cè)AI輕量化的設(shè)計體系,推動以用戶價值為導(dǎo)向的To B/To C產(chǎn)品創(chuàng)新。
商湯科技聯(lián)合創(chuàng)始人林達(dá)華:人工智能的惠普與開放之路
林達(dá)華歸納了人工智能發(fā)展四個關(guān)鍵要素:科研、數(shù)據(jù)、算力、落地。
基礎(chǔ)研究和技術(shù)能力決定了產(chǎn)業(yè)化能走多遠(yuǎn)、走多快。到了具體的領(lǐng)域,數(shù)據(jù)、算力、落地場景是三個最為關(guān)鍵的要素,當(dāng)他們被連接在一起時,人工智能技術(shù)會泛化出巨大的力量,推動技術(shù)前進(jìn)和產(chǎn)業(yè)升級。
商湯從底層到應(yīng)用層都有自研的技術(shù),在核心底層建立深度學(xué)習(xí)訓(xùn)練平臺。
不斷建設(shè)底層技術(shù)的過程中,商湯充分認(rèn)識到,對人工智能的發(fā)展來說,計算能力是必不可少的重要支撐和戰(zhàn)略基石。所以從2015年開始到現(xiàn)在,商湯持續(xù)建立以GPU為核心的人工智能超算平臺。
林達(dá)華介紹,到現(xiàn)在為止,已經(jīng)建立了超過2萬臺GPU的大型人工智能超算集群,其中最大的集群已經(jīng)連接了超過3000塊GPU,可以支持千億級模型訓(xùn)練和上百億大型數(shù)據(jù)集模型訓(xùn)練。其計算集群的總計算能力,可以比肩世界上的最高級別超算。
林達(dá)華表示,人工智能對社會的價值有三方面: 第一,經(jīng)濟(jì)角度。它可以提升生產(chǎn)的效率,通過自動化和人工智能技術(shù)變革產(chǎn)業(yè)經(jīng)濟(jì),實現(xiàn)產(chǎn)業(yè)的升級。第二,通過人工智能技術(shù)進(jìn)入社會生活的方方面面,給社會和人民大眾賦能百業(yè)。最后,創(chuàng)造美好生活,推動社會進(jìn)步。
智慧城市除了安防以外,其實還有非常多的維度,隨著人工智能產(chǎn)業(yè)落地的深化,在整個社會很多的行業(yè),它其實都能受惠人工智能技術(shù)的進(jìn)步和落地。
微軟亞洲研究院首席研究員王井東:高分辨率網(wǎng)絡(luò):一種視覺識別的通用網(wǎng)絡(luò)架構(gòu)
從2012年以來,隨著AlexNet橫空出世,深度神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域成為主流的方法。2014年,谷歌發(fā)明出了GoogleNet,牛津大學(xué)發(fā)明了VGGNet,2015年微軟發(fā)明了ResNet,2016年康奈爾大學(xué)和清華大學(xué)發(fā)明了DenseNet,這幾個結(jié)構(gòu)都是圍繞分類任務(wù)而發(fā)明的網(wǎng)絡(luò)結(jié)構(gòu)。
除了分類以外,在計算機視覺里面還有其它的重要任務(wù),比如圖像分割、人臉關(guān)鍵點的檢測、人體姿態(tài)估計、目標(biāo)檢測等等。
下一代的網(wǎng)絡(luò)結(jié)構(gòu)是什么樣的呢?是否適用于更為廣泛的視覺識別問題?
王井東首先介紹了分類網(wǎng)絡(luò)結(jié)構(gòu),它是包括一系列減小表征空間大小的過程,最終得到一個低分辨率的表征,然后進(jìn)行分類,但是分割等任務(wù)需要空間精度高的表征,即高分辨率表征。
學(xué)習(xí)高分辨率表征,有一種叫上采樣的通用方法,包括兩個步驟,第一個步驟是分類的網(wǎng)絡(luò)架構(gòu),表征開始比較大,然后慢慢變小。第二個步驟,通過上采樣的方法逐步從低分辨率恢復(fù)高分辨率。這樣的方法獲得的特征空間精度較弱。
而王井東團(tuán)隊研發(fā)的高分辨率網(wǎng)絡(luò)架構(gòu)(HRNet)沒有沿用以前的分類架構(gòu),也不是從低分辨率恢復(fù)到高分辨率,自始至終維持高分辨率。
他們讓高中低分辨率不停地交互,使得高分辨率可以拿到低分辨率語義性比較強的表征,低分辨率可以拿到高分辨率的空間精度比較強的表征,不停地融合,最終取得更強的高分辨率表征。
在人體姿態(tài)、分割、人臉關(guān)鍵點檢測、目標(biāo)檢測等任務(wù)中,HRNet從參數(shù)量、計算量以及最終結(jié)果看,高分辨率結(jié)構(gòu)都非常有優(yōu)勢。HRNet在人體姿態(tài)估計的任務(wù)上,已經(jīng)成為標(biāo)準(zhǔn)的方法;在分割任務(wù)上,由于其更好的性能,也被大家廣泛使用。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章