0
本文作者: AI研習(xí)社-譯站 | 2020-09-16 15:51 |
字幕組雙語原文:探索與執(zhí)行:通過元強(qiáng)化學(xué)習(xí)分解實現(xiàn)無獎勵自適應(yīng)
英語原文:Explore then Execute: Adapting without Rewards via Factorized Meta-Reinforcement Learning
翻譯:雷鋒字幕組(小哲)
比家務(wù)活更有成就感的活動。
沒有人喜歡家務(wù) 一 我們可以制造機(jī)器人來幫我們做這些家務(wù)嗎?例如做飯。 訓(xùn)練執(zhí)行各種任務(wù)的智能體的一個通常范式就是針對每個特定的任務(wù)利用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練一個單獨(dú)的智能體,可是在人們的家中利用強(qiáng)化學(xué)習(xí)的方式從頭開始訓(xùn)練一個智能體將會完全失敗,因為這(訓(xùn)練過程)將會導(dǎo)致許多的災(zāi)難(例如廚房火災(zāi)),而且采用強(qiáng)化學(xué)習(xí)的方式從頭開始訓(xùn)練一個智能體需要來自每個人大量的監(jiān)督,從而對機(jī)器人成功做出一頓飯給出獎勵,并且這也會花費(fèi)大量的時間(從頭學(xué)習(xí)每一個簡單的任務(wù)都需要強(qiáng)化學(xué)習(xí)智能體數(shù)百萬次嘗試)。
相反, 理想的做法是,如果一個機(jī)器人首先在機(jī)器人廚師工廠中首次訓(xùn)練完成之后,我們就可以訓(xùn)練它使其能夠快速適應(yīng)各種各樣的家庭廚房。直觀地說, 這應(yīng)該是可能的, 因為不同的任務(wù)和環(huán)境都擁有大量相似結(jié)構(gòu)(例如, 在一個廚房里做比薩餅類似于在另一個廚房里做漢堡包), 這可以使學(xué)習(xí)每一項任務(wù)變得更容易和更有效率。
幸運(yùn)的是,在對許多相似的任務(wù)進(jìn)行了第一次訓(xùn)練之后,元強(qiáng)化學(xué)習(xí)尋找的確切目標(biāo)是通過對新任務(wù)很少的交互來訓(xùn)練智能體使其適應(yīng)新任務(wù),那么, 為什么今天沒有機(jī)器人在我們的廚房做飯呢? 為了回答這個問題, 我們將把注意力轉(zhuǎn)向元探索的問題: 如何最好的利用這些很少的交互來探索新的任務(wù). 例如, 為了適應(yīng)一個新的廚房, 一個機(jī)器人廚師理想的情況下應(yīng)該花很少的互動來探索新廚房來尋找配料(烹飪原料), 這允許它能夠作出一頓飯(解決這個任務(wù)). 在這篇博文中, 我們將討論并解決關(guān)于的元探索的兩個關(guān)鍵挑戰(zhàn), 這兩個挑戰(zhàn)讓人類留在廚房(意思就是機(jī)器人不能正常工作)。
第一, 我們將展示現(xiàn)有的元強(qiáng)化學(xué)習(xí)方法存在雞和蛋耦合的難題: 如果機(jī)器人已經(jīng)知道如何做飯的話, 那么學(xué)習(xí)探索發(fā)現(xiàn)烹飪原料只能幫助機(jī)器人準(zhǔn)備這頓飯, 但是機(jī)器人只有知道了原料在哪里,它才能學(xué)會做飯.為了避免學(xué)習(xí)探索與學(xué)習(xí)執(zhí)行(解決任務(wù))的循環(huán)依賴問題, 我們提出一個目標(biāo)來讓智能體獨(dú)立的學(xué)習(xí)這兩個過程。
第二, 我們也會發(fā)現(xiàn), 標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)的問題設(shè)置希望機(jī)器人能夠通過試錯作出正確的飯菜,甚至沒有告訴機(jī)器人做什么飯, 這不必要的使元探索的問題變復(fù)雜,為了避免這個問題, 我們提出一個基于指令的元強(qiáng)化學(xué)習(xí)方法, 在這種方法中,機(jī)器人將會收到特定做什么飯的指令。
標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)設(shè)置
在開始之前, 我們回顧一下標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)的問題討論, 在元強(qiáng)化學(xué)習(xí)中,一個智能體(例如一個機(jī)器人廚師)需要在不同的環(huán)境(不同的廚房)和不同的任務(wù)(不同的飯菜)中進(jìn)行訓(xùn)練, 然后需要在新的環(huán)境和新的任務(wù)中進(jìn)行元測試, 在面對一個新環(huán)境和一個新任務(wù)時,在真正開始執(zhí)行任務(wù)之前, 智能體需要花費(fèi)一段時間探索,來收集必要的信息(例如, 定位配料的位置),, 然后在執(zhí)行任務(wù)的過程中,智能體需要完成這個任務(wù)(例如作出一頓飯)。
在更正式的語言中,標(biāo)準(zhǔn)meta-RL考慮了一系列問題,其中每個問題確定了一個獎勵函數(shù)\mathcal{R}\muRμ(例如,烹調(diào)一個比薩餅)和轉(zhuǎn)換交互的場景(例如,廚房), 使用Duan等人2016年的術(shù)語,我們將一個試驗定義為同一問題中的幾個片段, 第一個階段是探索片段, 在這個片段中智能體收集信息并且不需要獲得最大回報. 所有接下來的片段時執(zhí)行階段, 在這個階段中,智能體需要完成這個任務(wù),其目標(biāo)是在元測試試驗的執(zhí)行階段,即在元訓(xùn)練期間的許多試驗中進(jìn)行第一次訓(xùn)練之后,最大限度地獲得回報。
雞和蛋的耦合問題。元探索問題的通常的方案(Wang et al., 2016, Duan et al., 2016)就是優(yōu)化一個循環(huán)的策略, 這個策略基于執(zhí)行事件的獎勵進(jìn)行端到端的探索與訓(xùn)練. 我們希望能在重復(fù)策略的隱藏狀態(tài)下,捕捉到探索事件中所學(xué)的信息,然后這些信息將對執(zhí)行事件有用. 可是這會導(dǎo)致一個雞和蛋的耦合問題,這就是學(xué)習(xí)很好的探索行為需要已經(jīng)學(xué)到很好的執(zhí)行行為,反之也是這樣這就阻礙了這種方法的學(xué)習(xí)。
例如, 如果一個機(jī)器人廚師不能發(fā)現(xiàn)廚房中配料的位置(糟糕的探索), 然后它可能就不能學(xué)習(xí)如何做飯(糟糕的執(zhí)行). 另一方面, 如果一個機(jī)器人不知道如何做的飯(糟糕的執(zhí)行), 那么無論探索過程如何做,都不能夠成功的做出一頓飯.這就使得探索過程充滿了挑戰(zhàn). 由于機(jī)器人剛開始訓(xùn)練時既不能探索也不能做飯, 將會陷入一個局部極小值,并且很難學(xué)習(xí)。
耦合難題。 哪一個先開始:雞(好的探索)還是蛋(好的執(zhí)行)
利用DREAM避免這個耦合難題. 為了放置雞和蛋耦合的難題, 我們提出了一個方法打破在學(xué)習(xí)探索與學(xué)習(xí)執(zhí)行行為二者的這種循環(huán)依賴, 這種方法稱為DREAM。直覺上,通過嘗試恢復(fù)執(zhí)行指令所需的信息,可以學(xué)習(xí)到良好的探索。因此,從高層次上講,DREAM包括兩個主要步驟:1)同時學(xué)習(xí)獨(dú)立于探索的執(zhí)行策略,并了解執(zhí)行所需的信息;2)學(xué)習(xí)一個探索策略來恢復(fù)該信息。
為了回答雞和蛋的問題, DREAM制作了它自己的蛋并且然后雞出來了
具體來說, 第一步, 我們基于問題標(biāo)識符\mu,訓(xùn)練一個執(zhí)行策略 \pi^\text{exec}πexec, 在做飯的例子中, 可能要么直接確定廚房的屬性(例如墻的顏色或者配料的位置),要么直接給廚房提供唯一的獨(dú)特的標(biāo)識符(例如one-hot編碼) 。 這種問題標(biāo)識符(直接或者不直接 ) 編碼了所有必要的信息去解決廚房中的這種問題, 允許執(zhí)行策略獨(dú)立于探索過程進(jìn)行學(xué)習(xí),這種方法避免了耦合問題。 同時,我們在第一步中的目標(biāo)是只識別執(zhí)行指令所需的信息,而問題標(biāo)識符也可能編碼無關(guān)的信息,例如墻顏色。為了移除這些冗余的信息,我們應(yīng)用一個信息瓶頸的策略來獲得瓶頸操作后的表示ZZ,我們使用zz來訓(xùn)練一個探索的策略\pi^\text{exp}πexp。
在第二步中,一旦我們獲得了一個瓶頸表示zz(理想情況下只包含執(zhí)行指令所需的信息),我們就可以訓(xùn)練一個探索策略\pi^\text{exp}πexp來恢復(fù)探索事件中的信息。為此,我們推出探索策略以獲得一個片段\tauτ,然后根據(jù)該片段對zz中包含的信息進(jìn)行編碼的程度來獎勵該策略。粗略地說,這個獎勵是瓶頸表征zz和片段\tauτ之間的相互信息I(z;\tau)I(z;τ)。
DREAM元測試
在元訓(xùn)練期間,通過簡單地為每個問題分配一個唯一的one-hot編碼,問題標(biāo)識符\muμ很容易提供,但在元測試期間通常不可用或沒有幫助(例如,如果\muμ是一個全新的one-hot編碼)。這似乎很令人擔(dān)憂,因為在元訓(xùn)練期間,zz上的執(zhí)行策略條件需要知道\muμ。但是,由于探索策略經(jīng)過訓(xùn)練,可以生成包含與zz相同信息的探索軌跡\tauτ,因此我們可以在元測試時通過推出探索策略直接將\tauτ替換為zz。詳情請看我們的論文!
改進(jìn)標(biāo)準(zhǔn)meta-RL設(shè)置。第二個元探索挑戰(zhàn)涉及元強(qiáng)化學(xué)習(xí)設(shè)置本身。雖然以上標(biāo)準(zhǔn)的meta-RL設(shè)置是一個有用的公式,但我們觀察到兩個方面可以使得元強(qiáng)化學(xué)習(xí)變得更加有現(xiàn)實意義。首先,標(biāo)準(zhǔn)的設(shè)置需要智能體依據(jù)獲得的獎勵自己推斷任務(wù)(例如,做什么飯),這是沒有必要并且非常不高效的. 相反, 在現(xiàn)實情況下,使用者將會告訴之恩功能題他們需要什么。
開放和誠實的溝通對你的機(jī)器人也很重要。
雖然標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)的設(shè)置利用了不同問題(環(huán)境和任務(wù)對)之間的共享結(jié)構(gòu),但它不能捕獲同一環(huán)境中不同任務(wù)之間的共享結(jié)構(gòu)。確切的來說, 在一次實驗中的所有片段都是固定的,為了執(zhí)行一個新任務(wù)(例如,做一頓新飯),智能體需要另一個探索片段,即使底層環(huán)境(如廚房)保持不變。取而代之的是,一個智能體在一個探索片段之后,能夠執(zhí)行許多任務(wù)。例如,在探索廚房找到任何配料后,一個理想的機(jī)器人廚師將能夠烹調(diào)任何涉及這些配料的飯菜,而在標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)環(huán)境中訓(xùn)練的智能體只能做一頓飯。
按照標(biāo)準(zhǔn)元強(qiáng)化學(xué)習(xí)設(shè)置訓(xùn)練的機(jī)器人廚師晚餐安排
這兩個方面可以掩蓋元探索問題,即如何最佳地使用探索片段,因為前者需要不必要的探索來推斷任務(wù),而后者只需要智能體探索來發(fā)現(xiàn)與單個任務(wù)相關(guān)的信息。 雖然直覺上,智能體應(yīng)該花費(fèi)探索片段來收集有用的信息,以供以后的執(zhí)行事件使用,但在許多情況下,當(dāng)處理簡單的任務(wù)時最優(yōu)探索會崩潰。例如,智能體只能發(fā)現(xiàn)任務(wù)是通過成功地烹調(diào)比薩餅并獲得積極的獎勵來烹調(diào)比薩餅,但在未來的執(zhí)行片段中卻一次又一次地做同樣的事情。這會讓探索情節(jié)幾乎毫無用處。
基于指令的元強(qiáng)化學(xué)習(xí)。 為了使元強(qiáng)化學(xué)習(xí)具有更好的現(xiàn)實意義, 我們提出一種新的稱為基于指令的元強(qiáng)化學(xué)習(xí), 這種方法將解決了上邊的兩個方面的問題, (i)給智能體提供一個指令(例如, 制作比薩或者one-hot編碼),這個指令在執(zhí)行階段指定了特定的任務(wù)。(ii)在執(zhí)行階段通過提供不同的指令更換任務(wù)。 例如,在工廠的不同廚房進(jìn)行元訓(xùn)練后,機(jī)器人廚師可以在一個單獨(dú)的安裝階段(探索片段)后,在新的家庭廚房中烹飪?nèi)祟愔付ǖ脑S多不同的飯菜。
基于指令的meta-RL:改變每一個執(zhí)行事件的任務(wù)通過指令傳遞給智能體。在試驗中,環(huán)境仍然保持不變。
無獎勵自適應(yīng)。在標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置中,為了推斷任務(wù)智能體需要在探索期間進(jìn)行獎勵觀察。然而,通過接收在IMRL中指定任務(wù)的指令,個好處是代理不再需要觀察獎勵來適應(yīng)新的任務(wù)和環(huán)境。具體地說,IMRL支持無獎勵適應(yīng),在元訓(xùn)練期間,智能體在執(zhí)行階段使用獎勵觀察來學(xué)習(xí)解決任務(wù),但在探索階段不觀察獎勵。在元測試期間,代理從不觀察任何獎勵。這使我們能夠?qū)φ鎸嵤澜绲牟渴鹎闆r進(jìn)行建模,由于在這種真實世界情況下,收集獎勵監(jiān)督非常昂貴。例如,機(jī)器人廚師最好能夠適應(yīng)家庭廚房,而不需要任何人的監(jiān)督。
IMRL通用嗎?重要的是, 把指定設(shè)置為空就退化為標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置. IMRL通用嗎?重要的是, 把指定設(shè)置為空就退化為標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置。 換句話說, 標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)就是IMRL的一種特殊情況, 在這種情況下,使用者的希望是固定的,并且使用者不給出任何指令。 因此IMRL的算法也可以直接應(yīng)用到標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)中, 反之亦然。
稀疏獎勵三維視覺導(dǎo)航。在我們論文中的一個實驗中,我們在一個是稀疏獎勵三維視覺導(dǎo)航問題組中評估DREAM,這個問題在2020年由Kamienny等人提出,我們在這個問題中引入視覺信號和更多的物體來世的這個問題變得更難。我們使用IMRL無獎勵適應(yīng)的設(shè)置。在執(zhí)行片段中,智能體收到一個指向目標(biāo)的指令,一個球,一個塊障礙塊者一個鑰匙,智能體從障礙的另一側(cè)開始執(zhí)行過程,并且必須繞著障礙物走一圈,閱讀標(biāo)志(用黃色突出顯示),在問題的兩個版本中,標(biāo)識要么指定到對象的藍(lán)色或紅色版本。智能體接收80x60 RGB圖像作為觀察,可以向左或向右或向前移動。執(zhí)行正確的對象會得到+1的獎勵,而去錯誤的對象會得到-1的獎勵。
如下圖所示, DREAM在這項任務(wù)中學(xué)會了近乎最佳的探索和執(zhí)行行為。在左邊,DREAM在探索的一段時間里繞著障礙物走著,看上面寫著藍(lán)色的標(biāo)牌。在右邊,在一個執(zhí)行片段中,DREAM收到了一個走到鑰匙的指令。因為在探索的階段 DREAM已經(jīng)讀到寫著藍(lán)色的標(biāo)志,所以它走向藍(lán)色鍵。
探索
執(zhí)行(走到鑰匙)
對比。廣義上來說, 以前的元增強(qiáng)學(xué)習(xí)方法分為兩個組:(i)端到端的方法, 這種方法基于執(zhí)行階段的獎勵優(yōu)化探索與執(zhí)行過程。 (ii)解耦的犯法,這種方法利用單獨(dú)的目標(biāo)單獨(dú)優(yōu)化探索與執(zhí)行過程,我們對比DREAM方法和這兩類中目前最優(yōu)的方法, 在端到端訓(xùn)練的類別中,我們對比
RL^2212, 經(jīng)典的端到端方法,它根據(jù)過去的狀態(tài)和獎勵觀察的整個序列來學(xué)習(xí)一個周期性的策略。
VariBAD3, 該方法在遞歸策略的隱狀態(tài)中增加了輔助損失函數(shù),以預(yù)測當(dāng)前問題的收益和動態(tài)。這可以看作是學(xué)習(xí)信念狀態(tài)4,它是對過去所有觀察的充分總結(jié)。
IMPORT5,這種方法額外的利用問題的屬性來幫助學(xué)習(xí)執(zhí)行行為。
除此之外, 在解耦類別中,我們對比:
PEARL-UB,這是PEARL6的上界. 我們利用問題的真實后驗分布,分析性地計算出由特定于問題的最優(yōu)策略所獲得的預(yù)期回報。
定量結(jié)果。 下邊我們打印出所有方法的收益。 對比實現(xiàn)了幾乎最優(yōu)結(jié)果的DREAM, 我們發(fā)現(xiàn)端到端訓(xùn)練的方法從來沒有讀取到標(biāo)志, 并且為了防止收到負(fù)的獎勵, 結(jié)果就是錯過了所有的物體。 即使他們被允許在探索情節(jié)中觀察獎勵(虛線),這種情況也會發(fā)生。因此,它們沒有得到回報,這表明了耦合問題。
另一方面, 盡管解耦類別的方法避免了耦合問題, 單是有互目標(biāo)沒有得到最優(yōu)的探索策略。 例如盡管可以獲得特定問題的真實后驗概率分布, 湯普森采樣方法(PEARLUB)沒有實現(xiàn)最優(yōu)的獎勵,要了解這一點(diǎn),回想一下Thompson抽樣是通過從后驗分布中抽樣一個問題并遵循該問題的執(zhí)行策略來探索的。由于最優(yōu)執(zhí)行策略直接指向正確的對象,并且從不讀取符號,因此Thompson抽樣在探索過程中從不讀取符號。 相比之下,DREAM的一個很好的特性是,只要有足夠的數(shù)據(jù)和足夠的策略類,它就可以從理論上學(xué)習(xí)最優(yōu)的探索和執(zhí)行。
在探索過程中有(虛線)和沒有(實線)獎勵的訓(xùn)練曲線。只有夢才能讀懂標(biāo)志,解決任務(wù)。而且它在探索過程中不需要獎勵就可以做到!
額外的結(jié)果,在我們的論文中,我們也在額外的簡愛哦學(xué)問題中評估了DREAM,設(shè)計這些問題來回答下列問題:
DREAM可以高效的探索發(fā)現(xiàn)這些僅僅在執(zhí)行過程中需要的信息嗎?
DREAM對于新的指令與環(huán)境能夠很好的泛化嗎?
除了基于指令的元強(qiáng)化學(xué)習(xí)之外,DREAM也可以在標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)中獲得提升的結(jié)果嗎?
大體上來說,對于以上問題,答案是肯定的,你可以從我們的論文中獲得更加細(xì)節(jié)性的結(jié)果。
總結(jié),在這篇博文中, 我們解決了元探索的難題:在一個新環(huán)境中為了執(zhí)行一個任務(wù)如何更好的收集信息。 為了做這個工作, 我們測試并且解決兩個主要的關(guān)鍵挑戰(zhàn)。
首先, 我們看到了現(xiàn)有的元強(qiáng)化學(xué)習(xí)方法如何通過端到端優(yōu)化探索和執(zhí)行來最大限度地獲得回報,但卻成為了雞和蛋問題的犧牲品。如果智能體還沒有學(xué)會探索,那么它就無法收集學(xué)習(xí)解決任務(wù)(例如做飯)所需的關(guān)鍵信息(例如,配料的位置)。另一方面,如果智能體還沒有學(xué)會解決任務(wù),那么就沒有學(xué)習(xí)探索的信號,因為無論如何,它都無法解決任務(wù)。我們通過提出一個解耦的目標(biāo)(DREAM)來避免這個問題循環(huán),即學(xué)習(xí)獨(dú)立地探索和學(xué)習(xí)解決任務(wù)。
第二,我們看到了標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置如何捕捉適應(yīng)新環(huán)境和新任務(wù)的概念,但要求智能體不必要地去探索來推斷任務(wù)(例如,做什么飯),并且不利用相同環(huán)境中不同任務(wù)之間的共享結(jié)構(gòu)(例如,在同一個廚房烹飪不同的飯菜)。我們通過提出基于指令的meta-RL(IMRL)來解決這個問題,IMRL為智能體提供了一條指定任務(wù)的指令,并要求智能體探索和收集對許多任務(wù)有用的信息。
DREAM 和 IMRL 很好地結(jié)合在一起: IMRL 原則上實現(xiàn)了無獎勵的適應(yīng),而 DREAM 在實踐中實現(xiàn)了這一點(diǎn)。由于 雞蛋相生 耦合問題,我們測試的其他最先進(jìn)的方法無法實現(xiàn)無獎勵的適應(yīng)。
接下來是什么? 未來還有很多工作要做 一 下面是一些研究探索的方向:
更復(fù)雜的指令與問題ID表述. 這項工作檢查了一個情況,在這種情況下,指令與問題ID都被表達(dá)為唯一的one-hot編碼,作為概念證明。當(dāng)然,在現(xiàn)實世界中,指令和問題ID可能更好地用自然語言或圖像(例如,要烹飪的飯菜的圖片)來表示。
把DREAM應(yīng)用到元強(qiáng)化學(xué)習(xí)的設(shè)置中, DREAM通常適用于任何元強(qiáng)化學(xué)習(xí)設(shè)置,其中一些信息被傳遞給智能體,其余的信息必須通過探索來發(fā)現(xiàn)。在這項工作中,我們研究了兩個這樣的例子:在IMRL中,指令傳達(dá)任務(wù);在標(biāo)準(zhǔn)的元強(qiáng)化學(xué)習(xí)設(shè)置中,一切都必須通過探索來發(fā)現(xiàn),但是還有其他設(shè)置也值得研究。例如,我們可能希望向智能體傳遞有關(guān)環(huán)境的信息,例如某些配料的位置,或者左邊的煤氣頭壞了,所以機(jī)器人廚師應(yīng)該使用右邊的。
無縫集成探索和執(zhí)行。在最常見的meta-RL設(shè)置中,允許智能體首先通過探索(探索階段)收集信息,然后再解決任務(wù)(執(zhí)行階段)。這也是我們研究的環(huán)境,它可以是相當(dāng)現(xiàn)實的。例如,一個機(jī)器人廚師可能需要一個安裝階段,在開始做飯之前,它首先探索家庭廚房。另一方面,一些作品,如Zintgraf et al.,2019,要求智能體從一開始就開始解決任務(wù):沒有探索情節(jié),所有情節(jié)都是執(zhí)行情節(jié)。夢在這種情況下已經(jīng)可以運(yùn)作了,只需在第一個執(zhí)行情節(jié)中忽略獎勵和探索,并在隨后的執(zhí)行情節(jié)中用更好的表現(xiàn)來彌補(bǔ)第一個執(zhí)行情節(jié)。這項工作令人驚訝地好,但最好能更優(yōu)雅地將探索和執(zhí)行結(jié)合起來。
雷鋒字幕組是一個由AI愛好者組成的翻譯團(tuán)隊,匯聚五五多位志愿者的力量,分享最新的海外AI資訊,交流關(guān)于人工智能技術(shù)領(lǐng)域的行業(yè)轉(zhuǎn)變與技術(shù)創(chuàng)新的見解。
團(tuán)隊成員有大數(shù)據(jù)專家,算法工程師,圖像處理工程師,產(chǎn)品經(jīng)理,產(chǎn)品運(yùn)營,IT咨詢?nèi)?,在校師生;志愿者們來自IBM,AVL,Adobe,阿里,百度等知名企業(yè),北大,清華,港大,中科院,南卡羅萊納大學(xué),早稻田大學(xué)等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學(xué)習(xí)新知,分享成長。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。