下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

本文作者：李梅

2022-08-05 19:23

導(dǎo)語：算法的迭代事實(shí)上變成了數(shù)據(jù)的迭代。

作者 | 李梅

編輯 | 陳彩嫻

今年年初，知名 AI 學(xué)者吳恩達(dá)在接受 IEEE Spectrum 的采訪中，呼吁大家將目光從以模型為中心轉(zhuǎn)向以數(shù)據(jù)為中心。深度學(xué)習(xí)問世以來，隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)趨于固定和成熟，轉(zhuǎn)而尋找改進(jìn)數(shù)據(jù)的方法，已經(jīng)成了 AI 研發(fā)的新出口。

近日，2021 年吳文俊人工智能科學(xué)進(jìn)步一等獎獲得者、云天勵飛首席科學(xué)家王孝宇博士，在人工智能產(chǎn)業(yè)年會上作了題為“ Towards Automated Artificial Intelligence”的主題報(bào)告。報(bào)告中，王孝宇博士詳述了AutoML/AutoAI 的三個發(fā)展階段，并介紹了他在云天勵飛主導(dǎo)開發(fā)的自動化 AI 模型生產(chǎn)平臺 YMIR。

王孝宇，現(xiàn)任云天勵飛首席科學(xué)家，此前曾任 Snap 研究院計(jì)算機(jī)視覺主席，NEC 美國研究院研究科學(xué)家。本科畢業(yè)于中國科技大學(xué)，后相繼在美國密蘇里大學(xué)獲得統(tǒng)計(jì)學(xué)碩士與電子計(jì)算機(jī)工程博士，主要研究領(lǐng)域?yàn)橛?jì)算機(jī)視覺、機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘等，是目前國內(nèi)唯一一位在系統(tǒng)、芯片、算法三個方向獲得吳文俊人工智能科技進(jìn)步獎的 AI 學(xué)者。

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

AI 科技評論對王孝宇博士在吳文俊獎大會上的報(bào)告作了不改原意的整理，并圍繞 AutoAI 對王孝宇博士進(jìn)行了一次深入對話。

1 AutoML/AutoAI 的三個階段

第一階段：模型設(shè)計(jì)、調(diào)參自動化

當(dāng)前，很多學(xué)者都已經(jīng)注意到，學(xué)術(shù)界或者工業(yè)界的優(yōu)秀人才所聚焦的研發(fā)，花費(fèi)太多時間用于模型結(jié)構(gòu)設(shè)計(jì)以及調(diào)參，但實(shí)際上它本不應(yīng)該成為研究的主要內(nèi)容。所以，有沒有一種自動化的方法，讓深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)在面對一個問題的時候，能自主的演化其架構(gòu)？

今年，關(guān)心這個問題的學(xué)者們共同發(fā)起了第一屆“自動化機(jī)器學(xué)習(xí)國際會議”（International Conference on Automated Machine Learning，AutoML Conference 2022），會議近期于2022年7月25日-7月27日在巴爾的摩舉辦。

在大會上，學(xué)者們概括出了自動化機(jī)器學(xué)習(xí)所涵蓋的 10 個主題：

Neural Architecture Search（NAS）
Hyperparameter Optimization（HPO）
Combined Algorithm Selection and Hyperparameter Optimization（CASH）
Automated Data Mining
Automated Reinforcement Learning（AutoRL）
Meta-Learning and Learning to Learn
Bayesian Optimization for AutoML
Evolutionary Algorithm for AutoML
Multi-Objective Optimization for AutoML
AutoAI（including Algorithm Configuration and Selection）

NAS 研究的是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動搜索和設(shè)計(jì)。Hyperparameter Optimization （超參數(shù)優(yōu)化）自動化的目標(biāo)是在我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候，不必再去費(fèi)時挑參數(shù)，去考慮哪一個參數(shù)好一點(diǎn)、哪一個參數(shù)差一點(diǎn)，而是可以自動預(yù)測和尋找。CASH 是個更難的問題，指我們要解決一個具體問題時，可以自動化地選擇哪些機(jī)器學(xué)習(xí)方法，而不是自己手動設(shè)計(jì)。

第二階段：簡單模型訓(xùn)練的軟件化

如果說第一階段的自動化主要面向?qū)I(yè)的算法研究人員，第二階段的系統(tǒng)化則面向一般的AI從業(yè)人員。他的主要目標(biāo)是在給定標(biāo)注好的數(shù)據(jù)的情況下，通過可視化的操作界面實(shí)現(xiàn)模型的訓(xùn)練。但第二階段只是個美好的故事，很難實(shí)際應(yīng)用，因?yàn)樗狈λ惴ㄔ趯?shí)際場景中不斷迭代的支持。

第三階段：數(shù)據(jù)迭代自動化

在算法設(shè)計(jì)自動化的基礎(chǔ)上，正在發(fā)生一些變化。在去年的 NeurIPS 會議上，知名人工智能科學(xué)家吳恩達(dá)舉辦了一個 workshop，討論“模型和數(shù)據(jù)到底哪一個更重要”。在設(shè)計(jì)化的工業(yè)生產(chǎn)中，他的觀點(diǎn)是，以模型為中心（Model-centric）的技術(shù)研發(fā)已經(jīng)轉(zhuǎn)化成以數(shù)據(jù)為中心（Data-centric）的技術(shù)研發(fā)。

模型和數(shù)據(jù)之間的關(guān)系可以這樣類比（這是我個人的理解，不代表其他人的看法）：模型和數(shù)據(jù)分別類比為一個人的 IQ 和知識儲備。假設(shè)一個人天生的 IQ 很高，如果從小就把他養(yǎng)在家里，永遠(yuǎn)不跟社會打交道，也不讓他學(xué)習(xí)新的知識，那么他還是會成長為一個很笨的人。而即使一個人資質(zhì)平平，但如果他見過全世界各地的事物，去過歐美留學(xué)，在中國做過實(shí)際的工業(yè)化生產(chǎn)，看過很多設(shè)計(jì)的案例，那么他可能比那個 IQ 高的人更厲害。所以如果這樣理解，模型就有點(diǎn)類似于 IQ，數(shù)據(jù)就有點(diǎn)類似于知識。二者同等重要，但到后面你會發(fā)現(xiàn)知識越來越重要，因?yàn)橹挥杏H歷過你才能知道，“知道”比“不知道”更重要。

在工業(yè)化大規(guī)模發(fā)展中，大家正在慢慢地從模型為中心的生產(chǎn)轉(zhuǎn)化為以數(shù)據(jù)為中心。下圖顯示的是吳恩達(dá)所做的一些實(shí)驗(yàn)對比：

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

我們可以看到，當(dāng)我們有了一個基礎(chǔ)算法之后，我們可從兩個維度來提高它的性能，一是以模型為中心的方法，即想盡各種辦法提高模型設(shè)計(jì)的復(fù)雜度、技術(shù)含量等；二是以數(shù)據(jù)為中心的方法，比如加數(shù)據(jù)（加數(shù)據(jù)也是有一些科學(xué)方法的，并不是加了數(shù)據(jù)后性能一定會提高）、檢查數(shù)據(jù)有沒有問題等等。他發(fā)現(xiàn)，以數(shù)據(jù)為中心的方法比以模型為中心的方法能更多地提高性能。我們自己做模型生產(chǎn)時也得到這樣一個結(jié)論：越到后面，數(shù)據(jù)的迭代越來越重要。因?yàn)樗心Ｐ偷姆?wù)實(shí)際上是針對某一個特定場景，使用的是特定的數(shù)據(jù)。

在我們過去八年的實(shí)踐中，我們發(fā)現(xiàn)，算法的迭代事實(shí)上變成了數(shù)據(jù)的迭代。另外一個維度看，到現(xiàn)在為止，我們已經(jīng)研發(fā)了大量算法模型，但從來沒有一個模型是搜集了一次數(shù)據(jù)、調(diào)整一次參數(shù)就不用再調(diào)整了，很多模型都迭代了 5-6 年，迭代的主要內(nèi)容就是數(shù)據(jù)。因?yàn)槲覀兘鉀Q不同的需求時，會遇到不同場景下的泛化性問題，我們碰到的問題越來越不一樣。這并不是算法不一樣的問題，而是場景不一樣，要處理的數(shù)據(jù)也不一樣，所以我們要不停地更新迭代數(shù)據(jù)，才能夠滿足不同場景應(yīng)用的需求。

既然算法迭代已經(jīng)變成了數(shù)據(jù)迭代，那么有沒有辦法把數(shù)據(jù)的迭代也自動化呢？如果算法設(shè)計(jì)可以自動化，那數(shù)據(jù)迭代也可以自動化，所以端到端地完成自動化的 AI 模型生產(chǎn)平臺就逐漸成為可能。

而數(shù)據(jù)迭代的自動化需要技術(shù)的支持，同時還需要系統(tǒng)層級的支持。

2 YMIR：自動化 AI 模型生產(chǎn)平臺

為什么要做AI模型生產(chǎn)的平臺化？如今，有自動化 AI 模型生產(chǎn)平臺需求的，已經(jīng)不僅僅是谷歌、微軟、Meta、IBM、蘋果等大公司了，我們國內(nèi)就有不少房地產(chǎn)公司開始投入 AI。他們都有人才的需求，自動化的 AI 可以降低他們的成本。地產(chǎn)公司、物業(yè)公司，以及像寧德時代這樣做電池的公司，都在慢慢引入 AI 來解決實(shí)際問題。

為什么會這樣？因?yàn)椋骸癆I 是新時代的電力”。AI 是一個非?；A(chǔ)的能力，可以提高我們做事情的效率，AI 并不改變行業(yè)，但是可以提升所在行業(yè)的生產(chǎn)效率，所以這種影響是全方位的，已經(jīng)慢慢地波及到非技術(shù)類公司了。更不用說現(xiàn)在廣泛的制造業(yè)，制造過程中的很多環(huán)節(jié)都可以利用到 AI 的能力。如果想提高自己的國際競爭力，提升自己的生產(chǎn)質(zhì)量，就需要 AI 的能力去賦能生產(chǎn)。

但問題又來了，我們沒有這么多 AI 人才，我們需要更scalable的方法進(jìn)行AI的研發(fā)。因此我們就做了 YMIR 這樣一個自動化模型生產(chǎn)系統(tǒng)。

YMIR 是一個開源的、公益性的 AI 模型生產(chǎn)平臺，是我們和國際知名高校以及硅谷科技公司一起聯(lián)合發(fā)起的國際開源項(xiàng)目。我們還邀請到了多家美國科技巨頭公司的首席AI官擔(dān)任我們的項(xiàng)目顧問。該項(xiàng)目已經(jīng)在 GitHub 上開源。

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

Github 地址：https://github.com/industryessentials/ymir

YMIR：覆蓋模型生產(chǎn)全流程，聚焦模型的快速迭代能力

有了這些技術(shù)的支持之后，我們打造了一個工程化的系統(tǒng) YMIR。YMIR 覆蓋模型生產(chǎn)全流程，聚焦在模型的快速迭代上。我們不是訓(xùn)練出一個模型就結(jié)束了，而是把模型（通過數(shù)據(jù)）迭代到能夠滿足現(xiàn)實(shí)場景的需求為止。

下圖是整個技術(shù)的框架，左邊是模型生產(chǎn)的初期階段，包括數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的標(biāo)注、模型的訓(xùn)練，右邊是一個迭代的過程，包括準(zhǔn)備挖掘數(shù)據(jù)、數(shù)據(jù)標(biāo)注、更新訓(xùn)練集、再次做模型的訓(xùn)練。

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

研發(fā)實(shí)踐：算法生產(chǎn)效率提升 6 倍，算法人員需求降 1/10

我們做了很多大規(guī)模研發(fā)實(shí)驗(yàn)，來看看在實(shí)際生產(chǎn)的時候，它到底能不能解決問題。我們做了大概 6 個月的跟蹤，投入了 10 個標(biāo)注人員，他們要么是高中生，要么是職業(yè)院校畢業(yè)的學(xué)生，當(dāng)然也有算法人員。我們目前不能完全脫離算法人員，在面對一個問題的時候，怎么將其分解成技術(shù)實(shí)現(xiàn)，這還需要算法人員介入。同時，我們還需要算法人員給標(biāo)注人員做一些簡單的系統(tǒng)培訓(xùn)。算法人員投入 0.3 左右，即他們花費(fèi)一天中的 30% 的時間去做這些事，其余時間他們還要做算法研發(fā)、標(biāo)注文檔的審核、模型迭代情況的查看以及發(fā)現(xiàn)模型的問題。

我們標(biāo)注的圖片總數(shù)是75萬，標(biāo)注圖片框數(shù) 100 萬。標(biāo)注人員的工作內(nèi)容的 90% 用在標(biāo)注上，把要檢測的物體標(biāo)注出來，10%的時間是用在操作 YMIR 系統(tǒng)上。我們在 3 個月的時間里，使用 10 個標(biāo)注人員、0.3 個算法人員，生產(chǎn)了 50 個算法，而且這些算法大部分能夠滿足實(shí)際應(yīng)用的需求，比如應(yīng)急事件中的滅火器檢測、消防栓檢測等城市治理的需求。有的算法都已經(jīng)達(dá)到 97% 的精度。

這是我們使用這套系統(tǒng)和不使用這套系統(tǒng)的投入時間對比：

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

周期都是三個月左右，沒有這套系統(tǒng)的時候，算法人力的投入大概是36人/天，標(biāo)注人員的投入是24人/天，模型生產(chǎn)了六個算法。在投入了這一套系統(tǒng)之后，我們在相同的時間周期內(nèi)可以生產(chǎn)51個算法，生產(chǎn)效率大概是17個算法/月，而以前是3個算法/月。使用自動化平臺后，算法生產(chǎn)效率提升了 6 倍，但是算法人員的需求降為原來的 1/10。（公眾號:雷峰網(wǎng)）

3 對話王孝宇

AI 科技評論：云天勵飛是一家算法公司，為什么會研究 AutoAI ?

王孝宇：我們不是一家單純生產(chǎn)算法的公司，我們?yōu)榭蛻籼峁┒说蕉说腁I解決方案。

同時我們意識到我們國家技術(shù)智能化、信息化的基礎(chǔ)還比較薄弱。我們希望5年之后，公司都認(rèn)識到 AI 的重要性，投入去做AI升級的時候，自動化的AI平臺將為他們節(jié)約大量的成本，并成為AI大規(guī)模普及的催化劑。而當(dāng)AI成為不可或缺的部分的時候，才有平臺化的硬件、平臺化的生產(chǎn)力工具、平臺化的服務(wù)的機(jī)會。我們希望YMIR AutoAI系統(tǒng)能推動行業(yè)的進(jìn)步，并促使公司進(jìn)入下一代人工智能技術(shù)及服務(wù)的研發(fā)。

AI 科技評論：您提到 AutoML 經(jīng)歷了三個發(fā)展階段，它們的本質(zhì)不同在什么地方？

王孝宇：第一階段主要是在學(xué)術(shù)的范疇，比如學(xué)者們發(fā)起AutoML Conference 2022，大家主要在探索算法模型設(shè)計(jì)的哪些環(huán)節(jié)能夠用自動化的方式去完成，以及用何種方式去實(shí)現(xiàn)自動化，比如如何實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索、超參數(shù)優(yōu)化、混合算法選擇等等。

第二階段是打造出自動化的算法模型生產(chǎn)系統(tǒng)，把第一階段積累的方法論沉淀為平臺和系統(tǒng)，以低代碼甚至零代碼的方式實(shí)現(xiàn)自動化算法模型訓(xùn)練。但這類平臺并沒有把模型迭代的過程落實(shí)到系統(tǒng)中去，沒有覆蓋真正模型訓(xùn)練的完整生產(chǎn)周期，所以滿足不了工業(yè)化生產(chǎn)的需求，我把這個階段的 AutoML 定位成一個「玩具」，玩一玩可以，但是不能真正用到實(shí)際任務(wù)中。因?yàn)闆]有任何一個工業(yè)化生產(chǎn)的模型只訓(xùn)練一次技術(shù)就可以了，它是需要迭代的。

而我們正在做的是第三階段的 AutoML，即打造面向產(chǎn)業(yè)應(yīng)用的自動化模型訓(xùn)練平臺。據(jù)我們的市場調(diào)研，YMIR 是市場上唯一一個覆蓋模型生產(chǎn)的全生命周期的系統(tǒng)，它可以真正地用到工業(yè)化生產(chǎn)中?？梢哉J(rèn)為，早期的 AutoML 偏向于純技術(shù)，而 YMIR 更強(qiáng)調(diào)實(shí)際的工業(yè)應(yīng)用。我們做的是一個產(chǎn)品系統(tǒng)，所以我們考慮的不僅是技術(shù)的問題，還有工程和系統(tǒng)的問題。

AI 科技評論：AutoML 和 AutoAI 兩個概念有什么區(qū)別？

王孝宇：我認(rèn)為，我們比較合適將 AutoML 的概念限制在它的第一階段，它專注于技術(shù)。Machine Learning 也只是人工智能技術(shù)之一，生產(chǎn)系統(tǒng)其實(shí)并不是傳統(tǒng)意義的 AutoML ，只是我們現(xiàn)在還找不到一個合適的詞去概括它。相比較而言， AutoAI 能更好地概括我們現(xiàn)在做的事情。

AI 科技評論：為什么說數(shù)據(jù)越來越重要？

王孝宇：數(shù)據(jù)和算法等技術(shù)是相輔相成的。而最終技術(shù)如果要滿足應(yīng)用需求，數(shù)據(jù)到位是不可或缺的一環(huán)。

算法可以將AI模型精度從 50% 提高到 60%，但還是不能最終解決應(yīng)用中實(shí)際的問題，而數(shù)據(jù)可以將AI系統(tǒng)精度從 60% 提高到 90%。因?yàn)槟Ｐ偷脑O(shè)計(jì)逐漸趨同、技術(shù)趨向成熟，這時數(shù)據(jù)的迭代變得比技術(shù)本身更重要。算法技術(shù)一直都很重要，但往往落地的臨門一腳，需要數(shù)據(jù)來推動。

AI 科技評論：現(xiàn)在已經(jīng)有別的 AI 模型生產(chǎn)平臺聲稱其訓(xùn)練一個模型只需要十幾分鐘，您怎么看？

王孝宇：模型要真正能部署到現(xiàn)實(shí)系統(tǒng)中去、真正能跑起來才有用。宣傳訓(xùn)練一個模型需要多短的時間是沒有意義的，因?yàn)檎嬲臅r間的是數(shù)據(jù)。模型訓(xùn)練可能只需要十幾分鐘，但百萬的數(shù)據(jù)標(biāo)注也需要花費(fèi)一個月。在一個模型的全生產(chǎn)周期中，我們首先要對問題進(jìn)行定義，之后收集數(shù)據(jù)，再去訓(xùn)練模型。將訓(xùn)練完的模型用到現(xiàn)實(shí)的場景中，看是否存在什么問題，然后再次收集大量的數(shù)據(jù)去做迭代，這個迭代的過程是很長的。

我們的很多算法人員將 90% 的時間都用在數(shù)據(jù)的處理上，只有 10% 的時間用來寫代碼和研發(fā)模型結(jié)構(gòu)?；ヂ?lián)網(wǎng)的數(shù)據(jù)相對容易獲得，但也需要大量的工作，因?yàn)閿?shù)據(jù)的噪聲很大，尤其是隨著這一波人工智能的應(yīng)用場景慢慢下沉到線下，數(shù)據(jù)的噪聲變得更大。例如傳統(tǒng)企業(yè)中質(zhì)檢員拍攝的圖像數(shù)據(jù)、數(shù)據(jù)標(biāo)注質(zhì)量也會因?yàn)橘|(zhì)檢員的個人素質(zhì)差異而不同。

AI 科技評論：YMIR 平臺包含數(shù)據(jù)的自動標(biāo)注嗎？

王孝宇：我們提供預(yù)標(biāo)注。所謂的“自動標(biāo)注”是一個偽概念，最起碼在現(xiàn)階段沒有一個平臺可以真正做到完全自動標(biāo)注，現(xiàn)在還需要人去介入，比如說做井蓋檢測時，我們提前給井蓋畫一個檢測框。如果畫對了，標(biāo)注人員就直接過審；如果沒對，標(biāo)注人員還要再修改。

AI 科技評論：為什么你們目前還沒有選擇將 YMIR 商業(yè)化、而是免費(fèi)開源？

王孝宇：我們國內(nèi)的消費(fèi)市場發(fā)展的非常好，因?yàn)橛辛己玫囊苿踊ヂ?lián)網(wǎng)基礎(chǔ)。而我們 ToB 服務(wù)的企業(yè)相較發(fā)達(dá)國家差距巨大，我想相當(dāng)一部分原因是我們沒有良好的企業(yè)信息化基礎(chǔ)和企業(yè)服務(wù)生態(tài)。我們其實(shí)是一個底層的布道者角色，想要促進(jìn)企業(yè)服務(wù)生態(tài)的繁榮。所以我們的平臺是完全開源的，無論你是個人用還是把它商業(yè)化都是免費(fèi)的。這的確有些理想主義，但我們認(rèn)為，整個行業(yè)好，我們就好，這是一種長期主義。（公眾號：雷峰網(wǎng)(公眾號：雷峰網(wǎng))）

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

李梅

編輯

發(fā)私信

當(dāng)月熱門文章

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心

下一代 AutoAI：從模型為中心，到數(shù)據(jù)為中心