丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給camel
發(fā)送

0

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

本文作者: camel 編輯:郭奕欣 2017-09-18 15:50
導語:層級損失函數(shù)因為內(nèi)含了類型樹中不同類之間的親疏關系,預期中應當能夠增強分類學習的效果。

雷鋒網(wǎng)AI科技評論按:近期Yann LeCun的新作《Hierarchical loss for classification》已經(jīng)放在了arXiv上,聯(lián)合作者為Facebook人工智能研究院的Cinna Wu和 Mark Tygert。

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?
在這篇文章中,作者認為在分類任務中,一般的神經(jīng)網(wǎng)絡模型(例如LeCun, Bengio 和 Hinton等人2015年中的模型,其他研究的模型也大多基于此展開的)很少會考慮到類型之間的親疏關系,例如這些模型的分類學習過程中并沒有考慮牧羊犬事實上比摩天大樓更像哈巴狗。在文章中,作者通過“超度規(guī)類樹”構造了一種新的損失函數(shù),稱為“層級損失函數(shù)”。這種損失函數(shù)因為內(nèi)含了類型樹中不同類之間的親疏關系,預期中應當能夠增強分類學習的效果。不過經(jīng)過六組實驗的對比,作者發(fā)現(xiàn)結果并沒有顯著的改進。作者認為,不管怎么著吧,至少這表明層級損失函數(shù)能用。

雷鋒網(wǎng)認為,它不僅能用,還極具潛力,因為LeCun只是用了最簡單的“超度規(guī)類樹”來闡述這種思想,相信在選用更合適的超度規(guī)樹后,分類學習會得到一個更好的結果。下面我們來看具體內(nèi)容。

一、構建層級損失/獲得函數(shù)

注:由于獲得函數(shù)(Win Function)與損失函數(shù)是同一個內(nèi)容的相反表示,訓練過程其實就是在尋找最小的損失函數(shù)或者最大的獲得函數(shù)。所以接下來只考慮層級獲得函數(shù)的構建。

構建層級獲得函數(shù),首先需要一個類樹,也即將待分的所有類按照親疏關系放到一顆關系樹中,每一個類都是類樹中的“樹葉”。對于一個輸入,分類器會映射到類樹每個樹葉上一個概率值,也即一個概率分布(圖中P1-P7)。類樹中每個節(jié)點處,文章中規(guī)定,其對應的概率值為其下所有樹葉概率值的和,如圖中所示。顯然在不考慮計算機的浮點誤差的情況下,“根部”的概率應該為1。

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

另一方面,對每個“節(jié)點”和“樹葉”都賦予一個權重。文章中規(guī)定,“根部”的權重為1/2,隨后每經(jīng)過一個“節(jié)點”,權重乘以1/2,直到樹葉;樹葉的權重由于是“樹”的末端,所以其權重要雙倍,如圖所示。

如果我們輸入一張A的圖片,那么我們可以計算其層級獲得函數(shù)W:

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

其中

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

從上面可以看到,事實上層級獲得函數(shù)的構造非常簡單,就是一個結構權重向量和概率分布向量的一個點乘。同樣可以看出,不管分類器給出什么樣的概率分布,層級獲得函數(shù)的范圍都在[1/2,1]區(qū)間內(nèi);當P1=1時,W最大,為1;而當P5、P6、P7中的任意一個等于1時,W最小,為1/2。在類樹中接近A的類的概率越大,層級獲得函數(shù)值就越大,所以層級獲得函數(shù)在某種程度上隱含了類之間親疏的關系,也構建了分類器準確度的一種度量。

二、一種改進:獲得函數(shù)的對數(shù)

有時候分類器給出的分布可能不是概率,這時候為了獲得一個正則的分布,我們可以使用softmax函數(shù)的方法,也即將(x1, x2, x3, ……xn)的分布序列轉(zhuǎn)換成

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

這樣的概率分布,顯然滿足正則性,且分布在(0,1)區(qū)間內(nèi)。這種方法不僅可以對向量進行歸一化,更重要的是它能夠凸顯出其中最大的值并抑制遠低于最大值的其他分量。

當采用softmax函數(shù)的結果作為概率分布時,最好是使用層級獲得函數(shù)W的對數(shù)進行優(yōu)化學習,而不是W本身。使用logW進行優(yōu)化的好處之一就是,當輸入樣本為多個獨立樣本時,它們的聯(lián)合概率將是它們概率的乘積;這時候?qū)@些樣本的獲得函數(shù)W進行求平均就具有了意義(在特殊情況下logW的平均將等于聯(lián)合概率的對數(shù))。

文章中對logW’ 的構建為:舍掉W中“根部”的項,然后將剩下的部分乘以2,此時W’=(W-1/2)*2的范圍在[0,1]之間(其中0對應最錯誤的分類,1則對應完全正確的分類),相應的,logW’將在(-∞,0]之間。

這就會導致一個問題。當多個獨立樣本,求log W’的平均值時,只要有一個出現(xiàn)了最錯誤的判斷,那么不管其他樣本的結果如何,log W’的平均值都會等于無窮大。所以這種方法對樣本及學習過程都有非常嚴格的要求。

三、實驗結果不理想

作者隨后用Joulin等人的fastTest文本分類監(jiān)督學習模型對層級獲得函數(shù)進行了六組實驗(六個數(shù)據(jù)集)。結果如下:

說明:
(1)flat表示沒有分類的情況(沒有分類相當于類樹只有一個層級),raw表示用層級獲得函數(shù)進行訓練,log表示用負的層級獲得函數(shù)的對數(shù)進行訓練,course表示在層級中使用通常的交叉熵損失函數(shù)只分類到最粗糙類(聚合)。

(2)one-hot win via hierarchy 表示喂給層級獲得函數(shù)的概率分布為獨熱碼(只有一個為1,其余為0)

(3)softmax win via hierarchy 表示喂給層級獲得函數(shù)的概率分布為softmax函數(shù)的結果;

(4)?log of win via hierarchy 表示(3)中層級獲得函數(shù)的負自然對數(shù);

(5)cross entropy表示使用交叉熵損失函數(shù)計算的結果,這種情況相當于類樹只有一個層級;

(6)coarsest accuracy 表示最粗糙分類正確的比例結果;

(7)parents’ accuracy 表示父級分類正確的比例結果;

(8)finest accuracy 表示分類到最終每一個類中正確的比例結果。

(9)最后一行的“higher”和“l(fā)ower”分別表示相應的列中“越大”和“越小”的值越好。

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?
通過以上結果,我們可以看到很多時候,通過層級獲得函數(shù)優(yōu)化的結果并沒有原來通過交叉熵損失函數(shù)優(yōu)化的結果好。那么,LeCun的這項工作白做了嗎?也并不是,至少它表明在一定程度上層級獲得函數(shù)能夠用做作為分類準確度的度量,它暗示了一種可能:當有采用更合適的層級獲得函數(shù)時,效果可能會超過當前所常用的交叉熵損失函數(shù)等方法。

那么機會來了,“更合適”有多種可能,就看你如何構造了!

雷鋒網(wǎng)注:原文鏈接 https://arxiv.org/pdf/1709.01062.pdf

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Yann LeCun的“層級損失函數(shù)”:牧羊犬和摩天大樓,哪個更像哈巴狗?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說