丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給翻譯官balala
發(fā)送

0

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

本文作者: 翻譯官balala 編輯:幸麗娟 2019-12-22 12:12 專題:NeurIPS 2019
導(dǎo)語:可有效避免選中重復(fù)的數(shù)據(jù)進(jìn)行無效標(biāo)注。

雷鋒網(wǎng) AI 科技評論按:深度學(xué)習(xí)如今能夠大獲成功,其中的一大功臣便是大規(guī)模的標(biāo)注數(shù)據(jù)。然而在大多數(shù)現(xiàn)實(shí)場景中,我們往往只能獲得未經(jīng)標(biāo)注的大規(guī)模數(shù)據(jù)集,如果要對這么多數(shù)據(jù)進(jìn)行人工標(biāo)注,勢必耗費(fèi)大量的人力成本。在此前,研究界已經(jīng)提出主動(dòng)學(xué)習(xí)的方法來解決這一問題,然后采用該方法選擇出來的數(shù)據(jù)可能存在大量重復(fù)的情況,從而造成標(biāo)注冗余問題。

對此,牛津大學(xué)的理論和應(yīng)用機(jī)器學(xué)習(xí)研究團(tuán)隊(duì)(OATML)在一篇 NeurIPS 2019 論文中提出了一種 BatchBALD 采集函數(shù),可有效解決主動(dòng)學(xué)習(xí)面臨的這一難題, AI 科技評論編譯如下。

在主動(dòng)學(xué)習(xí)中,我們使用“人在回路”(Human in the Loop)的方法進(jìn)行數(shù)據(jù)標(biāo)注,可有效地減少了需要大量標(biāo)注的數(shù)據(jù)量,并且該方法適用于標(biāo)注成本過高時(shí)的機(jī)器學(xué)習(xí)。

我們在《BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning》論文中提出了 [1], 進(jìn)一步提出了 BatchBALD 采集函數(shù):這是一種在深度主動(dòng)學(xué)習(xí)中選擇信息點(diǎn)批次的全新的實(shí)用方法,它可以解決長期困擾我們的標(biāo)注冗余問題。我們提出的算法基于信息論并在有用的直覺(Intuition)上進(jìn)行了擴(kuò)展。

一、什么是主動(dòng)學(xué)習(xí)?

我們在一系列重要的實(shí)驗(yàn)中,通過利用深度學(xué)習(xí)算法和大量經(jīng)標(biāo)注的數(shù)據(jù)集,能得到很好的結(jié)果。但在一般情況下,我們只能獲取到未標(biāo)注的大型數(shù)據(jù)集。例如,我們很容易獲得大量的庫存照片,但是標(biāo)注這些圖像既費(fèi)時(shí)又昂貴。這就使得許多應(yīng)用無法從深度學(xué)習(xí)的最新研究進(jìn)展成果中受益。

在主動(dòng)學(xué)習(xí)中,我們僅僅要求專家標(biāo)注信息量最多的數(shù)據(jù)點(diǎn),而不是預(yù)先標(biāo)注整個(gè)數(shù)據(jù)集。然后我們再使用這些新獲取的數(shù)據(jù)點(diǎn)和所有先前標(biāo)注好的數(shù)據(jù)點(diǎn)對模型進(jìn)行反復(fù)訓(xùn)練。重復(fù)此過程,直到模型結(jié)果的精度滿足我們的要求為止。    

     主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!       

圖1: 主動(dòng)學(xué)習(xí)流程。重復(fù)進(jìn)行主動(dòng)訓(xùn)練、評分、標(biāo)注和獲取的學(xué)習(xí)步驟,直到模型達(dá)到足夠的精度為止。

要執(zhí)行主動(dòng)學(xué)習(xí),我們需要定義一些信息評價(jià)指標(biāo),這通常是以“采集函數(shù)(acquisition function)”的形式完成。之所以將此評價(jià)指標(biāo)稱為“采集函數(shù)”,是因?yàn)樗?jì)算的分?jǐn)?shù)確定了我們要獲取的數(shù)據(jù)點(diǎn)。我們要發(fā)給專家做標(biāo)注的這些未經(jīng)標(biāo)注的數(shù)據(jù)點(diǎn),可以最大化采集函數(shù)。

二、存在什么問題?

通常來說,未標(biāo)注點(diǎn)的信息量是單獨(dú)進(jìn)行評估的,其中一種流行的“采集函數(shù)”就是 BALD  [2]在主動(dòng)學(xué)習(xí)中,研究者往往普遍采用 BALD 這種采集函數(shù)方法來分別對未標(biāo)注點(diǎn)的信息量進(jìn)行評估,但是由于單個(gè)信息點(diǎn)可能幾乎相同,分別評估各個(gè)點(diǎn)的信息量極度浪費(fèi)資源。

這意味著,如果我們單純地獲取前 K 個(gè)最有用的點(diǎn),可能最終會(huì)導(dǎo)致讓專家給 K 個(gè)幾乎相同的點(diǎn)加標(biāo)簽!           

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖2: 來自 MNIST 數(shù)據(jù)集(手寫數(shù)字)的1000個(gè)隨機(jī)選擇的點(diǎn)的 BALD 得分(信息量)。 這些點(diǎn)按數(shù)字標(biāo)簽進(jìn)行顏色編碼,并按分?jǐn)?shù)排序。用于評分的模型已經(jīng)首先訓(xùn)練達(dá)到 90% 的準(zhǔn)確性。如果我們選擇得分最高的分?jǐn)?shù)(例如,得分高于 0.6),則大多數(shù)得分將是 8,即便我們能夠假定模型在獲得了前幾對得分后會(huì)認(rèn)為它們的信息量要少于其他可用的數(shù)據(jù)。點(diǎn)在x軸上通過數(shù)字標(biāo)簽進(jìn)行了稍微移動(dòng)以避免重疊。

三、我們的研究成果

在這篇論文中,我們將采集函數(shù)的概念有效地?cái)U(kuò)展到了數(shù)據(jù)點(diǎn)的集合,并提出了一種新的采集函數(shù),該函數(shù)可以在獲取數(shù)據(jù)點(diǎn)的批次時(shí)考慮到數(shù)據(jù)點(diǎn)之間的相似性。

為此,我們采用了常用的 BALD 采集函數(shù),并以特定的方式將其擴(kuò)展 BatchBALD 采集函數(shù)。我們將在下文中對該采集函數(shù)進(jìn)行解釋。           

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!   

圖3: BALD采集函數(shù) 和 BatchBALD采集函數(shù) 的理想獲取。如果數(shù)據(jù)集的每個(gè)數(shù)據(jù)點(diǎn)包含多個(gè)相似點(diǎn),則 BALD 采集函數(shù)將以犧牲其他信息數(shù)據(jù)點(diǎn)為代價(jià)選擇單個(gè)信息數(shù)據(jù)點(diǎn)的所有副本,從而浪費(fèi)了數(shù)據(jù)效率。

但是,僅僅知道如何為每個(gè)批次數(shù)據(jù)點(diǎn)評分是不夠的!我們?nèi)匀幻媾R著尋找得分最高的數(shù)據(jù)點(diǎn)批次的難題。簡單的解決方案是嘗試數(shù)據(jù)點(diǎn)的所有子集,但那是行不通的,因?yàn)榇嬖?span style="color: #595959;">指數(shù)級(jí)多的可能性。

針對我們提出的采集函數(shù),我們發(fā)現(xiàn)它具有一個(gè)非常有用的屬性,叫做子模性(Submodularity),它使我們能夠運(yùn)用貪婪算法:逐個(gè)選擇點(diǎn),并在先前添加到數(shù)據(jù)點(diǎn)批次中的的所有點(diǎn)上調(diào)節(jié)每個(gè)新點(diǎn)。我們通過利用這種子模性屬性,可以證明這種貪婪算法找到的子集“足夠好”(也就是:1-1 / e-的近似)。

總體而言,這使得我們提出的采集函數(shù) BatchBALD 在性能上要優(yōu)于 BALD 采集函數(shù) :對于大小相差不多的批次,它使用較少的迭代和較少的數(shù)據(jù)點(diǎn)即可達(dá)到更高的精度,并顯著地減少了冗余的模型訓(xùn)練和專家標(biāo)注,從而降低了成本和時(shí)間。

而且,從經(jīng)驗(yàn)上講,它與按順序獲取單個(gè)點(diǎn)的最優(yōu)選擇一樣好,但在速度上要比后者快得多。后者在每個(gè)單點(diǎn)獲取之后,仍需要重新訓(xùn)練模型。

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

(a) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。在采集大小為10的情況下,BatchBALD 采集函數(shù)優(yōu)于 BALD 采集函數(shù),并且性能接近最佳采集大小1           

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

(b) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的相對總時(shí)間,標(biāo)準(zhǔn)化訓(xùn)練采集大小為10的 BatchBALD 采集函數(shù)至95%的精度。星號(hào)標(biāo)注表示:每種方法達(dá)到95%的準(zhǔn)確度的點(diǎn)。

圖4: MNIST 數(shù)據(jù)集實(shí)驗(yàn)的 BALD 采集函數(shù)和 BatchBALD 采集函數(shù)的性能和訓(xùn)練時(shí)間。采集大小為10的 BatchBALD 采集函數(shù)的性能與采集大小為1的 BALD 采集函數(shù)差異不大,但是它只需要一小段時(shí)間,因?yàn)樗枰匦掠?xùn)練模型的次數(shù)更少。與采集大小為10的 BALD 采集函數(shù)相比,BatchBALD 采集函數(shù)也需要更少的采集來達(dá)到95%的準(zhǔn)確度。

在解釋采集函數(shù)之前,我們需要了解 BALD 采集函數(shù)的作用。

四、什么是BALD采集函數(shù)?

BALD 是貝葉斯不一致主動(dòng)學(xué)習(xí)(Bayesian Active Learning by Disagreement)的簡稱 [2]。 

如“貝葉斯”其名所示,它假設(shè)貝葉斯設(shè)定能夠讓我們捕獲模型預(yù)測的不確定性。在貝葉斯模型中,參數(shù)不僅僅是在訓(xùn)練過程中更新的數(shù)字(點(diǎn)估計(jì)),而且是概率分布。

這使模型可以量化它的理念:參數(shù)的廣泛分布意味著模型無法確定其真實(shí)值,反之狹窄的參數(shù)分布則可以量化更高的確定性。

BALD 采集函數(shù)(基于模型預(yù)測的結(jié)果 y 是否能很好地體現(xiàn)模型參數(shù) ω)給一個(gè)數(shù)據(jù)點(diǎn) x進(jìn)行評分。為此,需要計(jì)算出互信息 Ⅱ(y , ω)。眾所周知,互信息是信息論中的概念,它能捕獲數(shù)量之間的信息重疊。

當(dāng)使用 BALD 采集函數(shù)選擇一個(gè)批次的 b 點(diǎn)時(shí),我們選擇的是 BALD 采集函數(shù)得分最高的前 b 個(gè)點(diǎn),這是該領(lǐng)域的標(biāo)準(zhǔn)做法。這與最大化以下批量采集函數(shù)的做法相同:

aBALD( {x1, ... , xb} , p( ω | Dtrain ) ) := Σbi=1Ⅱ(y; ω | x, Dtrain)            

其中,                                             

  {x1*, ...,  xb*} := arg max aBALD( {x1, ... , xb} , p(ω | Dtrain) ),{x1, ... , xb} ?Dpool           

直觀來看,如果在批次點(diǎn)中,我們將給定一些數(shù)據(jù)點(diǎn)和模型參數(shù)得到的預(yù)測信息內(nèi)容視作集合,互信息則可以看作是這些集合的交集,這就對應(yīng)了互信息評估信息重疊的概念。           

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!           

圖5: BALD采集函數(shù) 背后的直覺?;疑珔^(qū)域有助于BALD 得分,深灰色區(qū)域被重復(fù)計(jì)算。

事實(shí)上,Yeuang在論文《A new outlook on Shannon's information measures》中[3]表明,這種直覺是有充分依據(jù)的。我們可以定義一個(gè)信息度 μ*,從而能夠使用設(shè)定操作來代表信息理論量化。  

 Η(x , y)= μ*(x ∪ y) 

 Ⅱ(x , y) = μ*(x ∩ y) 

 Ep(y)Η(x | y)= μ*(x \ y)  

圖 5 展示了 BALD 采集函數(shù)在獲取3個(gè)點(diǎn)的批次時(shí)對這些集合的交集區(qū)域所計(jì)算出來的分?jǐn)?shù)。

因?yàn)?BALD 采集函數(shù)是一個(gè)簡單累加計(jì)算,所以會(huì)導(dǎo)致數(shù)據(jù)點(diǎn)之間的互信息被重復(fù)計(jì)算,并且 BALD 采集函數(shù)高估了真實(shí)的互信息。這就是為什么在具有同一點(diǎn)有很多(幾乎相同)副本的數(shù)據(jù)集中,單純使用 BALD 采集函數(shù)會(huì)導(dǎo)致我們選出所有副本的原因:我們對所有點(diǎn)之間的互信息交集進(jìn)行累積計(jì)算!

五、BatchBALD 采集函數(shù)

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖6: BatchBALD 采集函數(shù)背后的直覺。 BatchBALD 采集函數(shù)考慮了數(shù)據(jù)點(diǎn)之間的相似性。

為了避免重復(fù)計(jì)算,我們要計(jì)算數(shù)量   μ*(Ui y∩ ω),如圖 6 所示,它對應(yīng)的是 yi 和 ω 的互信息Ⅱ( y1, ... , y; ω | x1, .... , xb, Dtrain ) :

 aBatchBALD( {x1, ... , xb} , p(ω | Dtrain)) := Ⅱ(y1, ... , yb ; ω | x1, .... , xb, Dtrain         

擴(kuò)展互信息的定義后,我們得到以下兩項(xiàng)之間的區(qū)別:

 aBatchBALD( {x1, ... , xb} , p(ω | Dtrain)) = H(y1, ... , yb ; ω | x1, .... , xb, Dtrain 

-E p( ω | Dtrain )[ H(y1, ... , yb | x1, .... , xb, ω) ]

第一項(xiàng)獲取了模型的一般不確定性,第二項(xiàng)獲取了給定模型參數(shù)描述的預(yù)期不確定性。 

我們可以看到,當(dāng)模型對數(shù)據(jù)點(diǎn)有不同的解釋,也就是模型對單個(gè)點(diǎn)更有信心(產(chǎn)生較小的第二項(xiàng)),但預(yù)測結(jié)果彼此并不不同(產(chǎn)生較大的第一項(xiàng))時(shí),該模型得到的分?jǐn)?shù)將變高。這就是“不一致”這個(gè)名稱的由來。(這也是“貝葉斯不一致主動(dòng)學(xué)習(xí)”這一名稱中的“不一致”的由來)

六、子模性

現(xiàn)在為了確定要獲取的數(shù)據(jù)點(diǎn),我們將使用子模性。  

基于子模性我們可以知道,這種做法帶來的提升會(huì)越來越?。哼x中兩個(gè)點(diǎn)帶來的分?jǐn)?shù)提升要比單獨(dú)選中一個(gè)點(diǎn)大,但是也沒有把兩個(gè)點(diǎn)各自帶來的提升加起來那么大:給定函數(shù) f :Ω→R ,我們稱f的子模,如果:

f(A ∪{ x,y })-f(A)≤(f(A∪{ x })-f(A))+ (f(A∪ { y })-f(A))

其中,所有的 A 包含于 Ω 和所有元素 x,y∈Ω 成立。    

我們在論文的附錄 A 中證明,我們的采集函數(shù)滿足了這一特性。

Nemhauser等人在論文《An analysis of approximations for maximizing submodular set functions》中 [4] 已經(jīng)證明,在子模函數(shù)中,可以使用貪婪算法來選擇點(diǎn),并保證其分?jǐn)?shù)至少為 1-1 / e ≈63 %是最佳的。這樣的算法稱為 1-1 / e- 的近似。

貪心算法以一個(gè)空批次 A = { } 開始 ,并計(jì)算所有未標(biāo)注數(shù)據(jù)點(diǎn)的 aBatchBALD( A∪{x} ),將最高分 X 加到A上并重復(fù)此過程,直到 A 在獲取大小內(nèi)。

接下來的文章將對此進(jìn)行詳細(xì)說明。 

七、一致的蒙特卡羅 Dropout 

我們使用蒙特卡羅 Dropout(MC Dropout)實(shí)現(xiàn)貝葉斯神經(jīng)網(wǎng)絡(luò) [5]。但是,與其他實(shí)現(xiàn)方法的重要區(qū)別在于,我們需要一致的 MC Dropout:為了能夠計(jì)算數(shù)據(jù)點(diǎn)之間的聯(lián)合熵,我們需要使用相同的采樣模型參數(shù)來計(jì)算 aBatchBALD 。

為了弄清原因,如圖 7 中所示,我們研究了隨著不同樣本模型參數(shù)設(shè)置的 MC Dropout 變化,評分分?jǐn)?shù)將如何變化。 

如果沒有一致的 MC Dropout,模型將使用不同的采樣模型參數(shù)集對得分進(jìn)行采樣,這會(huì)導(dǎo)致丟失 y與附近的 X之間的函數(shù)相關(guān)性,并且由于分?jǐn)?shù)被分散,它與與隨機(jī)采集獲取數(shù)據(jù)的方法基本上沒有什么區(qū)別。             

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖7: 不同組的100個(gè)采樣模型參數(shù)的 BatchBALD 采集函數(shù)得分。這展示了從數(shù)據(jù)集中隨機(jī)選取的1000個(gè)點(diǎn)的 BatchBALD 采集函數(shù)得分,同時(shí)為已經(jīng)達(dá)到90%精度的 MNIST 數(shù)據(jù)集實(shí)驗(yàn)?zāi)P瓦x擇了第10個(gè)點(diǎn)。單組100個(gè)模型參數(shù)的得分以藍(lán)色顯示。BatchBALD 采集函數(shù)估計(jì)值表現(xiàn)出很強(qiáng)的帶寬,不同組采樣參數(shù)之間的得分差異大于單個(gè)頻段“軌跡”內(nèi)給定組的不同數(shù)據(jù)點(diǎn)之間的差異。

八、在 MNIST、重復(fù)的 MNIST以及 EMNIST 上進(jìn)行實(shí)驗(yàn)

我們已經(jīng)對 EMNIST 數(shù)據(jù)集進(jìn)行了分類實(shí)驗(yàn),該數(shù)據(jù)集涵蓋了由47個(gè)類別和120000個(gè)數(shù)據(jù)點(diǎn)組成的手寫字母和數(shù)字。 

      主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!    

圖8: EMNIST 數(shù)據(jù)集中所有47個(gè)類別的示例

我們可以看到:在獲取大批次數(shù)據(jù)時(shí)表現(xiàn)更差(甚至比隨機(jī)獲取還差!)的 BALD 采集函數(shù)有了明顯的改善:           

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖9: EMNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。BatchBALD 采集函數(shù)始終優(yōu)于隨機(jī)采集和 BALD 采集函數(shù),而 BALD 采集函數(shù)則無法超越隨機(jī)采集方法。 

這是因?yàn)榕c BatchBALD 采集函數(shù)和隨機(jī)采集相比,BALD 采集函數(shù)會(huì)主動(dòng)選擇冗余點(diǎn)。 為了更好地理解這一點(diǎn),我們可以查看所獲取的分類標(biāo)簽并計(jì)算其分布的熵。 熵越高,獲取的標(biāo)簽就越多樣化:

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖10: 在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中,通過獲取步驟中獲取的類標(biāo)簽的熵。BatchBALD 采集函數(shù)穩(wěn)定地獲取了更多不同的數(shù)據(jù)點(diǎn)集。  

我們還可以查看模型訓(xùn)練結(jié)束時(shí)所獲得的分類的實(shí)際分布,并發(fā)現(xiàn) BALD 采集函數(shù)對某些分類進(jìn)行了欠采樣,而 BatchBALD 采集函數(shù)嘗試更均勻地從不同分類中選擇數(shù)據(jù)點(diǎn)(當(dāng)然該算法并不知道分類)。 1

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖11: 在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中,獲取的類別標(biāo)簽的直方圖。左圖為 BatchBALD 采集函數(shù)結(jié)果,右圖為 BALD 采集函數(shù)結(jié)果。根據(jù)獲取次數(shù)對類進(jìn)行分類,為清楚起見,僅顯示下半部分。一些 EMNIST 類在 BALD 采集函數(shù)中不具有足夠的代表性,而 BatchBALD 采集函數(shù)獲得的類更加統(tǒng)一。根據(jù)所有的采集的點(diǎn)我們創(chuàng)建了如圖示的直方圖。

為了理解 BatchBALD 采集函數(shù)如何更好地解決不受控的場景,我們還嘗試了 MNIST 數(shù)據(jù)集版本,我們將其稱為重復(fù)的 MNIST 數(shù)據(jù)集( Repeated MNIST )。我們將 MNIST 數(shù)據(jù)集簡單地重復(fù)了3次,并增加了一些高斯噪聲,進(jìn)而展示了 BALD 采集函數(shù)如何掉入陷阱中:因?yàn)閿?shù)據(jù)集中有太多類似的點(diǎn),使用得分排在前 b 的單個(gè)點(diǎn)是不利于計(jì)算的。 2

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖12: 在采集大小為10時(shí)重復(fù) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。 BatchBALD 采集函數(shù)的性能優(yōu)于 BALD 采集函數(shù),而由于數(shù)據(jù)集中的副本,BALD 采集函數(shù)的性能要比隨機(jī)采集差。  

我們還嘗試了不同的采集大小,發(fā)現(xiàn)在 MNIST 數(shù)據(jù)集實(shí)驗(yàn)中,BatchBALD 采集函數(shù)甚至可以一次采集40個(gè)點(diǎn),而數(shù)據(jù)效率幾乎沒有損失,不過 BALD 采集函數(shù)則會(huì)迅速惡化。            

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

                                                                  (BALD)                                                                  

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

          (BatchBALd)              

圖13: MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能,可增加采集大小。 隨著采集規(guī)模的增加,BALD 采集函數(shù)的性能急劇下降。即使采集數(shù)量增加,BatchBALD 采集函數(shù)仍可保持很好的性能。 

九、最后的一點(diǎn)想法

我們發(fā)現(xiàn)非常令人驚訝的是,當(dāng)在批次數(shù)據(jù)上進(jìn)行估計(jì)時(shí),在主動(dòng)學(xué)習(xí)中廣泛使用的標(biāo)準(zhǔn)采集函數(shù)的結(jié)果甚至比隨機(jī)基準(zhǔn)更差。不過,我們樂于深入研究問題的核心并試圖理解失敗的原因,從而使我們對在該領(lǐng)域使用信息論工具的方式有了新的見解。

從很多方面來看,我們在這項(xiàng)工作中獲得的真正收獲是:當(dāng)某件事失敗時(shí),我們需要停下來認(rèn)真地思考。

腳注:

[1] 隨機(jī)獲取也比 BALD 采集函數(shù)能更一致地選擇類,但不如 BatchBALD 采集函數(shù)效果好。    

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖14: 在 EMNIST 數(shù)據(jù)集實(shí)驗(yàn)中獲取的類別標(biāo)簽的直方圖。 左邊是 BatchBALD 采集函數(shù),右邊是隨機(jī)采集中心,右邊是 BALD 采集函數(shù)。類按獲取數(shù)量排序。在 BALD 采集函數(shù)和隨機(jī)獲取中,一些 EMNIST 類的代表性不足,而 BatchBALD 采集函數(shù)則更一致地獲取類。直方圖是用所有采集的點(diǎn)繪制的。   

[2] 但是 BALD 采集函數(shù)并不是在這種情況下唯一失敗的采集函數(shù)。     

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

圖15: 重復(fù) MNIST 數(shù)據(jù)集實(shí)驗(yàn)的性能。 BALD 采集函數(shù),BatchBALD 采集函數(shù),方差率,標(biāo)準(zhǔn)均方差和隨機(jī)采集:采集大小10,帶有10個(gè) MC Dropout 樣本。  

參考文獻(xiàn)

[1] BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning

Kirsch, A., van Amersfoort, J. and Gal, Y., 2019.    

[2] Bayesian active learning for classification and preference learning    

Houlsby, N., Huszar, F., Ghahramani, Z. and Lengyel, M., 2011. arXiv preprint arXiv:1112.5745.

[3] A new outlook on Shannon's information measures     

Yeung, R.W., 1991. IEEE transactions on information theory, Vol 37(3), pp. 466--474. IEEE.

[4] An analysis of approximations for maximizing submodular set functions—I    

Nemhauser, G.L., Wolsey, L.A. and Fisher, M.L., 1978. Mathematical programming, Vol 14(1), pp. 265--294. Springer.           

[5] Dropout as a Bayesian approximation: Representing model uncertainty in deep learning   

Gal, Y. and Ghahramani, Z., 2016. international conference on machine learning, pp. 1050--1059.

via https://oatml.cs.ox.ac.uk/blog/2019/06/24/batchbald.html    雷鋒網(wǎng) AI 科技評論編譯  雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

主動(dòng)學(xué)習(xí)可減少對標(biāo)注數(shù)據(jù)的依賴卻會(huì)造成標(biāo)注冗余?NeurIPS 2019 論文解決了這個(gè)問題!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說