丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給李梅
發(fā)送

0

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

本文作者: 李梅 2022-08-05 19:23
導(dǎo)語:算法的迭代事實(shí)上變成了數(shù)據(jù)的迭代。

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

作者 | 李梅

編輯 | 陳彩嫻


今年年初,知名 AI 學(xué)者吳恩達(dá)在接受 IEEE Spectrum 的采訪中,呼吁大家將目光從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心。深度學(xué)習(xí)問世以來,隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)趨于固定和成熟,轉(zhuǎn)而尋找改進(jìn)數(shù)據(jù)的方法,已經(jīng)成了 AI 研發(fā)的新出口。

近日,2021 年吳文俊人工智能科學(xué)進(jìn)步一等獎獲得者、云天勵飛首席科學(xué)家王孝宇博士,在人工智能產(chǎn)業(yè)年會上作了題為“ Towards Automated Artificial Intelligence”的主題報(bào)告。報(bào)告中,王孝宇博士詳述了AutoML/AutoAI 的三個發(fā)展階段,并介紹了他在云天勵飛主導(dǎo)開發(fā)的自動化 AI 模型生產(chǎn)平臺 YMIR。

王孝宇,現(xiàn)任云天勵飛首席科學(xué)家,此前曾任 Snap 研究院計(jì)算機(jī)視覺主席,NEC 美國研究院研究科學(xué)家。本科畢業(yè)于中國科技大學(xué),后相繼在美國密蘇里大學(xué)獲得統(tǒng)計(jì)學(xué)碩士與電子計(jì)算機(jī)工程博士,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘等,是目前國內(nèi)唯一一位在系統(tǒng)、芯片、算法三個方向獲得吳文俊人工智能科技進(jìn)步獎的 AI 學(xué)者。

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

AI 科技評論對王孝宇博士在吳文俊獎大會上的報(bào)告作了不改原意的整理,并圍繞 AutoAI 對王孝宇博士進(jìn)行了一次深入對話。


1 AutoML/AutoAI 的三個階段


第一階段:模型設(shè)計(jì)、調(diào)參自動化

當(dāng)前,很多學(xué)者都已經(jīng)注意到,學(xué)術(shù)界或者工業(yè)界的優(yōu)秀人才所聚焦的研發(fā),花費(fèi)太多時間用于模型結(jié)構(gòu)設(shè)計(jì)以及調(diào)參,但實(shí)際上它本不應(yīng)該成為研究的主要內(nèi)容。所以,有沒有一種自動化的方法,讓深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)在面對一個問題的時候,能自主的演化其架構(gòu)?

今年,關(guān)心這個問題的學(xué)者們共同發(fā)起了第一屆“自動化機(jī)器學(xué)習(xí)國際會議”(International Conference on Automated Machine Learning,AutoML Conference 2022),會議近期于2022年7月25日-7月27日在巴爾的摩舉辦。

在大會上,學(xué)者們概括出了自動化機(jī)器學(xué)習(xí)所涵蓋的 10 個主題:

  • Neural Architecture Search(NAS)

  • Hyperparameter Optimization(HPO)

  • Combined Algorithm Selection and Hyperparameter Optimization(CASH)

  • Automated Data Mining

  • Automated Reinforcement Learning(AutoRL)

  • Meta-Learning and Learning to Learn

  • Bayesian Optimization for AutoML

  • Evolutionary Algorithm for AutoML

  • Multi-Objective Optimization for AutoML

  • AutoAI(including Algorithm Configuration and Selection)

NAS 研究的是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動搜索和設(shè)計(jì)。Hyperparameter Optimization (超參數(shù)優(yōu)化)自動化的目標(biāo)是在我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候,不必再去費(fèi)時挑參數(shù),去考慮哪一個參數(shù)好一點(diǎn)、哪一個參數(shù)差一點(diǎn),而是可以自動預(yù)測和尋找。CASH 是個更難的問題,指我們要解決一個具體問題時,可以自動化地選擇哪些機(jī)器學(xué)習(xí)方法,而不是自己手動設(shè)計(jì)。

第二階段:簡單模型訓(xùn)練的軟件化

如果說第一階段的自動化主要面向?qū)I(yè)的算法研究人員,第二階段的系統(tǒng)化則面向一般的AI從業(yè)人員。他的主要目標(biāo)是在給定標(biāo)注好的數(shù)據(jù)的情況下,通過可視化的操作界面實(shí)現(xiàn)模型的訓(xùn)練。但第二階段只是個美好的故事,很難實(shí)際應(yīng)用,因?yàn)樗狈λ惴ㄔ趯?shí)際場景中不斷迭代的支持。

第三階段:數(shù)據(jù)迭代自動化

在算法設(shè)計(jì)自動化的基礎(chǔ)上,正在發(fā)生一些變化。在去年的 NeurIPS 會議上,知名人工智能科學(xué)家吳恩達(dá)舉辦了一個 workshop,討論“模型和數(shù)據(jù)到底哪一個更重要”。在設(shè)計(jì)化的工業(yè)生產(chǎn)中,他的觀點(diǎn)是,以模型為中心(Model-centric)的技術(shù)研發(fā)已經(jīng)轉(zhuǎn)化成以數(shù)據(jù)為中心(Data-centric)的技術(shù)研發(fā)。

模型和數(shù)據(jù)之間的關(guān)系可以這樣類比(這是我個人的理解,不代表其他人的看法):模型和數(shù)據(jù)分別類比為一個人的 IQ 和知識儲備。假設(shè)一個人天生的 IQ 很高,如果從小就把他養(yǎng)在家里,永遠(yuǎn)不跟社會打交道,也不讓他學(xué)習(xí)新的知識,那么他還是會成長為一個很笨的人。而即使一個人資質(zhì)平平,但如果他見過全世界各地的事物,去過歐美留學(xué),在中國做過實(shí)際的工業(yè)化生產(chǎn),看過很多設(shè)計(jì)的案例,那么他可能比那個 IQ 高的人更厲害。所以如果這樣理解,模型就有點(diǎn)類似于 IQ,數(shù)據(jù)就有點(diǎn)類似于知識。二者同等重要,但到后面你會發(fā)現(xiàn)知識越來越重要,因?yàn)橹挥杏H歷過你才能知道,“知道”比“不知道”更重要。

在工業(yè)化大規(guī)模發(fā)展中,大家正在慢慢地從模型為中心的生產(chǎn)轉(zhuǎn)化為以數(shù)據(jù)為中心。下圖顯示的是吳恩達(dá)所做的一些實(shí)驗(yàn)對比:

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

我們可以看到,當(dāng)我們有了一個基礎(chǔ)算法之后,我們可從兩個維度來提高它的性能,一是以模型為中心的方法,即想盡各種辦法提高模型設(shè)計(jì)的復(fù)雜度、技術(shù)含量等;二是以數(shù)據(jù)為中心的方法,比如加數(shù)據(jù)(加數(shù)據(jù)也是有一些科學(xué)方法的,并不是加了數(shù)據(jù)后性能一定會提高)、檢查數(shù)據(jù)有沒有問題等等。他發(fā)現(xiàn),以數(shù)據(jù)為中心的方法比以模型為中心的方法能更多地提高性能。我們自己做模型生產(chǎn)時也得到這樣一個結(jié)論:越到后面,數(shù)據(jù)的迭代越來越重要。因?yàn)樗心P偷姆?wù)實(shí)際上是針對某一個特定場景,使用的是特定的數(shù)據(jù)。

在我們過去八年的實(shí)踐中,我們發(fā)現(xiàn),算法的迭代事實(shí)上變成了數(shù)據(jù)的迭代。另外一個維度看,到現(xiàn)在為止,我們已經(jīng)研發(fā)了大量算法模型,但從來沒有一個模型是搜集了一次數(shù)據(jù)、調(diào)整一次參數(shù)就不用再調(diào)整了,很多模型都迭代了 5-6 年,迭代的主要內(nèi)容就是數(shù)據(jù)。因?yàn)槲覀兘鉀Q不同的需求時,會遇到不同場景下的泛化性問題,我們碰到的問題越來越不一樣。這并不是算法不一樣的問題,而是場景不一樣,要處理的數(shù)據(jù)也不一樣,所以我們要不停地更新迭代數(shù)據(jù),才能夠滿足不同場景應(yīng)用的需求。

既然算法迭代已經(jīng)變成了數(shù)據(jù)迭代,那么有沒有辦法把數(shù)據(jù)的迭代也自動化呢?如果算法設(shè)計(jì)可以自動化,那數(shù)據(jù)迭代也可以自動化,所以端到端地完成自動化的 AI 模型生產(chǎn)平臺就逐漸成為可能。

而數(shù)據(jù)迭代的自動化需要技術(shù)的支持,同時還需要系統(tǒng)層級的支持。


2 YMIR:自動化 AI 模型生產(chǎn)平臺


為什么要做AI模型生產(chǎn)的平臺化?如今,有自動化 AI 模型生產(chǎn)平臺需求的,已經(jīng)不僅僅是谷歌、微軟、Meta、IBM、蘋果等大公司了,我們國內(nèi)就有不少房地產(chǎn)公司開始投入 AI。他們都有人才的需求,自動化的 AI 可以降低他們的成本。地產(chǎn)公司、物業(yè)公司,以及像寧德時代這樣做電池的公司,都在慢慢引入 AI 來解決實(shí)際問題。

為什么會這樣?因?yàn)椋骸癆I 是新時代的電力”。AI 是一個非?;A(chǔ)的能力,可以提高我們做事情的效率,AI 并不改變行業(yè),但是可以提升所在行業(yè)的生產(chǎn)效率,所以這種影響是全方位的,已經(jīng)慢慢地波及到非技術(shù)類公司了。更不用說現(xiàn)在廣泛的制造業(yè),制造過程中的很多環(huán)節(jié)都可以利用到 AI 的能力。如果想提高自己的國際競爭力,提升自己的生產(chǎn)質(zhì)量,就需要 AI 的能力去賦能生產(chǎn)。

但問題又來了,我們沒有這么多 AI 人才,我們需要更scalable的方法進(jìn)行AI的研發(fā)。因此我們就做了 YMIR 這樣一個自動化模型生產(chǎn)系統(tǒng)。

YMIR 是一個開源的、公益性的 AI 模型生產(chǎn)平臺,是我們和國際知名高校以及硅谷科技公司一起聯(lián)合發(fā)起的國際開源項(xiàng)目。我們還邀請到了多家美國科技巨頭公司的首席AI官擔(dān)任我們的項(xiàng)目顧問。該項(xiàng)目已經(jīng)在 GitHub 上開源。

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

Github 地址:https://github.com/industryessentials/ymir

YMIR:覆蓋模型生產(chǎn)全流程,聚焦模型的快速迭代能力

有了這些技術(shù)的支持之后,我們打造了一個工程化的系統(tǒng) YMIR。YMIR 覆蓋模型生產(chǎn)全流程,聚焦在模型的快速迭代上。我們不是訓(xùn)練出一個模型就結(jié)束了,而是把模型(通過數(shù)據(jù))迭代到能夠滿足現(xiàn)實(shí)場景的需求為止。

下圖是整個技術(shù)的框架,左邊是模型生產(chǎn)的初期階段,包括數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的標(biāo)注、模型的訓(xùn)練,右邊是一個迭代的過程,包括準(zhǔn)備挖掘數(shù)據(jù)、數(shù)據(jù)標(biāo)注、更新訓(xùn)練集、再次做模型的訓(xùn)練。

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

研發(fā)實(shí)踐:算法生產(chǎn)效率提升 6 倍,算法人員需求降 1/10

我們做了很多大規(guī)模研發(fā)實(shí)驗(yàn),來看看在實(shí)際生產(chǎn)的時候,它到底能不能解決問題。我們做了大概 6 個月的跟蹤,投入了 10 個標(biāo)注人員,他們要么是高中生,要么是職業(yè)院校畢業(yè)的學(xué)生,當(dāng)然也有算法人員。我們目前不能完全脫離算法人員,在面對一個問題的時候,怎么將其分解成技術(shù)實(shí)現(xiàn),這還需要算法人員介入。同時,我們還需要算法人員給標(biāo)注人員做一些簡單的系統(tǒng)培訓(xùn)。算法人員投入 0.3 左右,即他們花費(fèi)一天中的 30% 的時間去做這些事,其余時間他們還要做算法研發(fā)、標(biāo)注文檔的審核、模型迭代情況的查看以及發(fā)現(xiàn)模型的問題。

我們標(biāo)注的圖片總數(shù)是75萬,標(biāo)注圖片框數(shù) 100 萬。標(biāo)注人員的工作內(nèi)容的 90% 用在標(biāo)注上,把要檢測的物體標(biāo)注出來,10%的時間是用在操作 YMIR 系統(tǒng)上。我們在 3 個月的時間里,使用 10 個標(biāo)注人員、0.3 個算法人員,生產(chǎn)了 50 個算法,而且這些算法大部分能夠滿足實(shí)際應(yīng)用的需求,比如應(yīng)急事件中的滅火器檢測、消防栓檢測等城市治理的需求。有的算法都已經(jīng)達(dá)到 97% 的精度。

這是我們使用這套系統(tǒng)和不使用這套系統(tǒng)的投入時間對比:

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

周期都是三個月左右,沒有這套系統(tǒng)的時候,算法人力的投入大概是36人/天,標(biāo)注人員的投入是24人/天,模型生產(chǎn)了六個算法。在投入了這一套系統(tǒng)之后,我們在相同的時間周期內(nèi)可以生產(chǎn)51個算法,生產(chǎn)效率大概是17個算法/月,而以前是3個算法/月。使用自動化平臺后,算法生產(chǎn)效率提升了 6 倍,但是算法人員的需求降為原來的 1/10。(公眾號:雷峰網(wǎng))


3 對話王孝宇


AI 科技評論:云天勵飛是一家算法公司,為什么會研究 AutoAI ?

王孝宇:我們不是一家單純生產(chǎn)算法的公司,我們?yōu)榭蛻籼峁┒说蕉说腁I解決方案。

同時我們意識到我們國家技術(shù)智能化、信息化的基礎(chǔ)還比較薄弱。我們希望5年之后,公司都認(rèn)識到 AI 的重要性,投入去做AI升級的時候,自動化的AI平臺將為他們節(jié)約大量的成本,并成為AI大規(guī)模普及的催化劑。而當(dāng)AI成為不可或缺的部分的時候,才有平臺化的硬件、平臺化的生產(chǎn)力工具、平臺化的服務(wù)的機(jī)會。我們希望YMIR AutoAI系統(tǒng)能推動行業(yè)的進(jìn)步,并促使公司進(jìn)入下一代人工智能技術(shù)及服務(wù)的研發(fā)。

AI 科技評論:您提到 AutoML 經(jīng)歷了三個發(fā)展階段,它們的本質(zhì)不同在什么地方?

王孝宇:第一階段主要是在學(xué)術(shù)的范疇,比如學(xué)者們發(fā)起AutoML Conference 2022,大家主要在探索算法模型設(shè)計(jì)的哪些環(huán)節(jié)能夠用自動化的方式去完成,以及用何種方式去實(shí)現(xiàn)自動化,比如如何實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索、超參數(shù)優(yōu)化、混合算法選擇等等。

第二階段是打造出自動化的算法模型生產(chǎn)系統(tǒng),把第一階段積累的方法論沉淀為平臺和系統(tǒng),以低代碼甚至零代碼的方式實(shí)現(xiàn)自動化算法模型訓(xùn)練。但這類平臺并沒有把模型迭代的過程落實(shí)到系統(tǒng)中去,沒有覆蓋真正模型訓(xùn)練的完整生產(chǎn)周期,所以滿足不了工業(yè)化生產(chǎn)的需求,我把這個階段的 AutoML 定位成一個「玩具」,玩一玩可以,但是不能真正用到實(shí)際任務(wù)中。因?yàn)闆]有任何一個工業(yè)化生產(chǎn)的模型只訓(xùn)練一次技術(shù)就可以了,它是需要迭代的。

而我們正在做的是第三階段的 AutoML,即打造面向產(chǎn)業(yè)應(yīng)用的自動化模型訓(xùn)練平臺。據(jù)我們的市場調(diào)研,YMIR 是市場上唯一一個覆蓋模型生產(chǎn)的全生命周期的系統(tǒng),它可以真正地用到工業(yè)化生產(chǎn)中??梢哉J(rèn)為,早期的 AutoML 偏向于純技術(shù),而 YMIR 更強(qiáng)調(diào)實(shí)際的工業(yè)應(yīng)用。我們做的是一個產(chǎn)品系統(tǒng),所以我們考慮的不僅是技術(shù)的問題,還有工程和系統(tǒng)的問題。

AI 科技評論:AutoML 和 AutoAI 兩個概念有什么區(qū)別?

王孝宇:我認(rèn)為,我們比較合適將 AutoML 的概念限制在它的第一階段,它專注于技術(shù)。Machine Learning 也只是人工智能技術(shù)之一,生產(chǎn)系統(tǒng)其實(shí)并不是傳統(tǒng)意義的 AutoML ,只是我們現(xiàn)在還找不到一個合適的詞去概括它。相比較而言, AutoAI 能更好地概括我們現(xiàn)在做的事情。

AI 科技評論:為什么說數(shù)據(jù)越來越重要?

王孝宇:數(shù)據(jù)和算法等技術(shù)是相輔相成的。而最終技術(shù)如果要滿足應(yīng)用需求,數(shù)據(jù)到位是不可或缺的一環(huán)。

算法可以將AI模型精度從 50% 提高到 60%,但還是不能最終解決應(yīng)用中實(shí)際的問題,而數(shù)據(jù)可以將AI系統(tǒng)精度從 60% 提高到 90%。因?yàn)槟P偷脑O(shè)計(jì)逐漸趨同、技術(shù)趨向成熟,這時數(shù)據(jù)的迭代變得比技術(shù)本身更重要。算法技術(shù)一直都很重要,但往往落地的臨門一腳,需要數(shù)據(jù)來推動。

AI 科技評論:現(xiàn)在已經(jīng)有別的 AI 模型生產(chǎn)平臺聲稱其訓(xùn)練一個模型只需要十幾分鐘,您怎么看?

王孝宇:模型要真正能部署到現(xiàn)實(shí)系統(tǒng)中去、真正能跑起來才有用。宣傳訓(xùn)練一個模型需要多短的時間是沒有意義的,因?yàn)檎嬲臅r間的是數(shù)據(jù)。模型訓(xùn)練可能只需要十幾分鐘,但百萬的數(shù)據(jù)標(biāo)注也需要花費(fèi)一個月。在一個模型的全生產(chǎn)周期中,我們首先要對問題進(jìn)行定義,之后收集數(shù)據(jù),再去訓(xùn)練模型。將訓(xùn)練完的模型用到現(xiàn)實(shí)的場景中,看是否存在什么問題,然后再次收集大量的數(shù)據(jù)去做迭代,這個迭代的過程是很長的。

我們的很多算法人員將 90% 的時間都用在數(shù)據(jù)的處理上, 只有 10% 的時間用來寫代碼和研發(fā)模型結(jié)構(gòu)?;ヂ?lián)網(wǎng)的數(shù)據(jù)相對容易獲得,但也需要大量的工作,因?yàn)閿?shù)據(jù)的噪聲很大,尤其是隨著這一波人工智能的應(yīng)用場景慢慢下沉到線下,數(shù)據(jù)的噪聲變得更大。例如傳統(tǒng)企業(yè)中質(zhì)檢員拍攝的圖像數(shù)據(jù)、數(shù)據(jù)標(biāo)注質(zhì)量也會因?yàn)橘|(zhì)檢員的個人素質(zhì)差異而不同。

AI 科技評論:YMIR 平臺包含數(shù)據(jù)的自動標(biāo)注嗎?

王孝宇:我們提供預(yù)標(biāo)注。所謂的“自動標(biāo)注”是一個偽概念,最起碼在現(xiàn)階段沒有一個平臺可以真正做到完全自動標(biāo)注,現(xiàn)在還需要人去介入,比如說做井蓋檢測時,我們提前給井蓋畫一個檢測框。如果畫對了,標(biāo)注人員就直接過審;如果沒對,標(biāo)注人員還要再修改。

AI 科技評論:為什么你們目前還沒有選擇將 YMIR 商業(yè)化、而是免費(fèi)開源?

王孝宇:我們國內(nèi)的消費(fèi)市場發(fā)展的非常好,因?yàn)橛辛己玫囊苿踊ヂ?lián)網(wǎng)基礎(chǔ)。而我們 ToB 服務(wù)的企業(yè)相較發(fā)達(dá)國家差距巨大,我想相當(dāng)一部分原因是我們沒有良好的企業(yè)信息化基礎(chǔ)和企業(yè)服務(wù)生態(tài)。我們其實(shí)是一個底層的布道者角色,想要促進(jìn)企業(yè)服務(wù)生態(tài)的繁榮。所以我們的平臺是完全開源的,無論你是個人用還是把它商業(yè)化都是免費(fèi)的。這的確有些理想主義,但我們認(rèn)為,整個行業(yè)好,我們就好,這是一種長期主義。(公眾號:雷峰網(wǎng)(公眾號:雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

下一代 AutoAI:從模型為中心,到數(shù)據(jù)為中心

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說