丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給亞萌
發(fā)送

2

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

本文作者: 亞萌 2017-03-14 14:57
導(dǎo)語:中國(guó)人工智能學(xué)會(huì)AIDL第二期【人工智能前沿講習(xí)班】在北京中科院自動(dòng)化所舉行,清華大學(xué)自動(dòng)化系張長(zhǎng)水教授帶來了題為《神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化》的報(bào)告。

雷鋒網(wǎng)AI科技評(píng)論按:3月4日,中國(guó)人工智能學(xué)會(huì)AIDL第二期【人工智能前沿講習(xí)班】在北京中科院自動(dòng)化所舉行,本期主題為【機(jī)器學(xué)習(xí)前沿】,由周志華教授擔(dān)任學(xué)術(shù)主任,前來授課的嘉賓有:耿新、郭天佑、劉鐵巖、王立威、葉杰平、于劍、俞揚(yáng)、張長(zhǎng)水、鄭宇、朱軍。清華大學(xué)自動(dòng)化系張長(zhǎng)水教授帶來了題為《神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化》的報(bào)告。

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

張長(zhǎng)水

清華大學(xué)自動(dòng)化系教授、博士生導(dǎo)師,智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)委員會(huì)委員,智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室副主任。主要從事機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、計(jì)算機(jī)視覺等領(lǐng)域的教學(xué)和科研工作。

以下是根據(jù)張長(zhǎng)水教授現(xiàn)場(chǎng)分享整理的文字報(bào)告,雷鋒網(wǎng)【AI科技評(píng)論】做編輯整理。

今天我和大家分享的主題是“神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化”。我大概會(huì)講這么幾點(diǎn):

  • 研究背景

  • 子模函數(shù)和超模函數(shù)

  • 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化

  • 實(shí)驗(yàn)部分


Part 1: 研究背景

當(dāng)前,深度神經(jīng)網(wǎng)絡(luò)模型的出現(xiàn)給我們帶成了很大的影響,這個(gè)影響大部分都是積極正面的,但是同時(shí)也存在一些不同看法。不管怎么說,深度學(xué)習(xí)模型在傳統(tǒng)的很多機(jī)器學(xué)習(xí)問題和相關(guān)問題上,都取得了令人矚目的突破和進(jìn)展。

我舉幾個(gè)例子,比如圖像識(shí)別。圖像識(shí)別是這樣一個(gè)問題:有一張圖像,需要識(shí)別這個(gè)圖像是貓、是狗、是計(jì)算機(jī)、是羽毛球拍?在2012年的深度學(xué)習(xí)網(wǎng)絡(luò)用于解決問題時(shí),有了很大的突破。

除此之外還有其他的問題,比如圖像描述、機(jī)器翻譯、語音識(shí)別。機(jī)器翻譯我們知道過去幾十年發(fā)展也很慢,基本上沒有辦法應(yīng)用實(shí)際,也是因?yàn)樯疃葘W(xué)習(xí)方法的應(yīng)用,使得機(jī)器翻譯有了一個(gè)很大的突破。百度因?yàn)檫@個(gè)方面的工作,大概在去年獲得了一個(gè)國(guó)家科技進(jìn)步二等獎(jiǎng),是王海峰帶領(lǐng)他的團(tuán)隊(duì)的成果。此外,語音識(shí)別,大家都知道,以前也是沒有到應(yīng)用的水平,而現(xiàn)在我們就可以用。比如說大家用微信,就可以用語音輸入。目前為止性能還不錯(cuò)的語音識(shí)別系統(tǒng),全部都是用深度學(xué)習(xí)方法去做的。

除此以外還有很多,比如醫(yī)療。還比如大家都知道的下棋。

深度學(xué)習(xí)方法應(yīng)用有很多好處,同時(shí)也有很多問題。比如說,深度學(xué)習(xí)網(wǎng)絡(luò)模型計(jì)算量特別大、模型特別復(fù)雜。模型復(fù)雜導(dǎo)致兩個(gè)問題,第一是訓(xùn)練上的困難,第二個(gè)是測(cè)試上的困難。訓(xùn)練上的困難在于它需要大量的時(shí)間,而且一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)要想在某個(gè)問題上達(dá)到特別好的實(shí)用化性能,需要特別多的數(shù)據(jù)。而這對(duì)于機(jī)器計(jì)算的要求、對(duì)于數(shù)據(jù)的要求,通常來說不是我們?cè)诟咝I瞄L(zhǎng)滿足的。因此,工業(yè)界就顯得很有優(yōu)勢(shì),他們有數(shù)據(jù)、有計(jì)算資源?,F(xiàn)在深度學(xué)習(xí)的技術(shù)進(jìn)步了,但是訓(xùn)練模型依然要花費(fèi)很長(zhǎng)時(shí)間。像我們實(shí)驗(yàn)室動(dòng)不動(dòng)訓(xùn)練一個(gè)模型就要一兩天的時(shí)間。另外測(cè)試時(shí)間也很長(zhǎng),我給一個(gè)數(shù)據(jù),跑神經(jīng)網(wǎng)絡(luò),最后從末端給出一個(gè)結(jié)果。這個(gè)過程看起來只有一遍過程,但是由于中間計(jì)算過于復(fù)雜,所以時(shí)間仍然很長(zhǎng)。比如給一張圖像,通常來說如果代碼寫的不夠好,大概需要幾秒的時(shí)間,如果寫的特別糟也可能一分鐘的時(shí)間。可是我們知道有些應(yīng)用問題不允許你這樣做,它需要你實(shí)時(shí)地識(shí)別圖像。還有就是對(duì)內(nèi)存有要求。神經(jīng)網(wǎng)絡(luò)模型有大量的參數(shù)都要存到計(jì)算機(jī)里去。如果你用的是服務(wù)器,這就沒問題,但當(dāng)你的這個(gè)技術(shù)走向應(yīng)用變成產(chǎn)品,這就不一樣了。比如說無人駕駛車,我們希望無人駕駛車上裝的攝像頭能夠識(shí)別路上的情況、標(biāo)識(shí)一些物體,你如果這么做,就要在無人駕駛車上有一個(gè)識(shí)別設(shè)備。我們知道無人駕駛車是一個(gè)那么有限的環(huán)境,它不太可能讓你放一個(gè)服務(wù)器或GPU,所以它的計(jì)算能力很弱。還有就是它對(duì)于電的要求高,我們知道GPU特別費(fèi)電,車上不太可能放一個(gè)幾百瓦、上千瓦的供電系統(tǒng)。所以有人對(duì)AlphaGo的一個(gè)批評(píng)就是,你和人去比賽,人靠的是什么,喝一杯牛奶、一片面包、一個(gè)雞蛋就來參加比賽;AlphaGo靠什么,后面有那么大的一個(gè)供電系統(tǒng)。還有一個(gè)特別理想的狀況,既然深度學(xué)習(xí)做圖像識(shí)別已經(jīng)有了很多突破,為什么不用在手機(jī)上?可是一旦考慮用在手機(jī)上,就發(fā)現(xiàn)有一堆的問題:內(nèi)存太小、計(jì)算能力太弱、耗電太厲害,所有這些東西都導(dǎo)致了神經(jīng)網(wǎng)絡(luò)現(xiàn)在在應(yīng)用階段有非常大的困難。

因此就提出這樣的問題,我們?cè)趺礃幼屔疃葘W(xué)習(xí)網(wǎng)絡(luò)緊湊、小型化。在實(shí)際中,我們做深度學(xué)習(xí)的時(shí)候有一個(gè)很重要的問題,就是要調(diào)參數(shù)。首先,給你一個(gè)問題,你有了數(shù)據(jù),選擇了一個(gè)基本模型,但是這個(gè)模型結(jié)構(gòu)到底怎么設(shè)置,層有多少,每層寬度多少?這樣一些參數(shù)怎么去定?有很多的因素會(huì)影響我們學(xué)習(xí)的性能。有人做過一項(xiàng)這樣的研究,你能夠把網(wǎng)絡(luò)學(xué)的好,學(xué)習(xí)率(learning rate)是最重要的一個(gè)因素。學(xué)習(xí)率就是我們求偏導(dǎo)的時(shí)候,會(huì)對(duì)導(dǎo)數(shù)的權(quán)重調(diào)整的系數(shù),這個(gè)系數(shù)特別重要,有相當(dāng)多的研究工作關(guān)注在這個(gè)地方,這個(gè)地方任何一個(gè)突破對(duì)所有人都是至關(guān)重要的,這里“所有人”是指對(duì)神經(jīng)網(wǎng)絡(luò)使用的那部分研究人員。此外,每層的寬度也是一個(gè)重要的參數(shù)。我今天的報(bào)告主要講如何選擇每層寬度。

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,有哪些已有的方法?

 第一種,貝葉斯方法

權(quán)重參數(shù)是我們?cè)谟?xùn)練階段要學(xué)習(xí)的一個(gè)參數(shù),此外我們需要提前確定的參數(shù)我們叫超參數(shù)。我們?cè)诔瑓?shù)這個(gè)問題上怎么去做?這是我們傳統(tǒng)的深度學(xué)習(xí)、機(jī)器學(xué)習(xí)比較關(guān)注的問題。我們假設(shè)有一個(gè)要學(xué)習(xí)的參數(shù),有的時(shí)候我們給這個(gè)參數(shù)假設(shè)一個(gè)形式,例如:高斯分布,那這個(gè)高斯分布就是你的先驗(yàn),你再想辦法確定這個(gè)高斯分布的均值、方差。這就是貝葉斯方法。但是這樣的方法里面,你需要先確定先驗(yàn)。

第二種,導(dǎo)數(shù)的方法

優(yōu)化目標(biāo)函數(shù)通常的做法是通過求導(dǎo)完成的。我們往往對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行求導(dǎo)。既然你的學(xué)習(xí)率是一個(gè)超參數(shù),我們?yōu)槭裁床荒軌驅(qū)λM(jìn)行學(xué)習(xí)?所以如果你能夠建立你要優(yōu)化的這個(gè)損失函數(shù)和你現(xiàn)在要學(xué)習(xí)的超參數(shù)之間的函數(shù)關(guān)系,建立這個(gè)函數(shù)關(guān)系以后,就可以去求梯度、求導(dǎo)。這個(gè)方法的優(yōu)點(diǎn)是很明顯的,但是缺點(diǎn)就是,可能需要你把這兩者之間的函數(shù)關(guān)系理清楚。第二個(gè),對(duì)于離散的問題,這種辦法就不好用。

第三種,網(wǎng)格搜索

超參數(shù)還怎么優(yōu)化?在實(shí)際過程中我們還有一些經(jīng)驗(yàn)上的做法,比如說網(wǎng)格搜索。大家去設(shè)想一下,在神經(jīng)網(wǎng)絡(luò)之前我們大家學(xué)過支持向量機(jī)。支持向量機(jī)的目標(biāo)函數(shù)有兩項(xiàng):是間隔項(xiàng)和懲罰項(xiàng)。這兩項(xiàng)之間會(huì)有一個(gè)C來平衡大的間隔和錯(cuò)分樣本的懲罰。這里 C是需要提前定的。但是實(shí)際中我們不知道C是多少。實(shí)際做的過程就是,我們通過網(wǎng)格搜索把這C等間隔取值,分別優(yōu)化SVM,使得我能夠得到一個(gè)特別好的結(jié)果。調(diào)好參數(shù)很重要,一來你要去發(fā)文章的時(shí)候,把你的參數(shù)調(diào)的盡可能好,和其它最好的方法去比較。另一個(gè)就是調(diào)系統(tǒng)和產(chǎn)品,我們希望自己的系統(tǒng)性能盡可能好,去賣個(gè)好價(jià)錢。

假如我們要優(yōu)化一個(gè)神經(jīng)網(wǎng)絡(luò),而我只關(guān)心這兩層的寬度。所謂的網(wǎng)格搜索就是,讓每層的寬度取值5、10、15、20、25個(gè)節(jié)點(diǎn),然后兩層一起考慮,遍歷所有的組合。這樣做保證不丟掉一些重要的結(jié)構(gòu)??上攵?,這種做法非常慢,而且我們神經(jīng)網(wǎng)絡(luò)往往會(huì)很多很多層,所以這是一個(gè)很頭疼的事。

即使采用遍歷的方法,網(wǎng)格搜索的方法后來也被認(rèn)為不太好。在2012年Bengio在 “The Journal of Machine Learning Research”發(fā)表的工作告訴我們,假設(shè)你要優(yōu)化的那兩個(gè)參數(shù),可能有一個(gè)很重要而另一個(gè)不那么重要,網(wǎng)格搜索就意味著構(gòu)成一個(gè)這樣的搜索點(diǎn)的分布,這個(gè)分布向兩個(gè)方向投影,就意味著你搜索了9個(gè)點(diǎn),而在每個(gè)方向上都有一些搜索點(diǎn)重復(fù)。如果我們采用隨機(jī)采樣的方式,而不是網(wǎng)格搜索的話,就有可能會(huì)充分利用這九個(gè)點(diǎn)采到這個(gè)特別重要的點(diǎn)。他們做了一些理論的和實(shí)驗(yàn)的分析,說明隨機(jī)搜索效果往往會(huì)更好。而比較有意思的,隨機(jī)搜索本身其實(shí)是一個(gè)很簡(jiǎn)單的過程,不需要那么多的預(yù)備知識(shí)和技術(shù),所以是一件挺好的事。

結(jié)構(gòu)優(yōu)化是一個(gè)離散優(yōu)化問題,所以我們用前邊很多的貝葉斯方法、求導(dǎo)方法不能用,所以通常情況下,都是人工做的。如果我們?cè)谧挠欣蠋煟屇愕膶W(xué)生去調(diào)參,說你要網(wǎng)格搜索,他可能會(huì)拒絕,他說這事我搞不定,這個(gè)參數(shù)組合太多了,另外,我們機(jī)器承受不了,我算一次就要1天、2天,我這樣一組合可能要幾百次、幾萬次人工調(diào)參數(shù)。所以人工調(diào)參數(shù)費(fèi)時(shí)費(fèi)力。此外,就是需要特別多的知識(shí),你要有很多的知識(shí)和經(jīng)驗(yàn)才能調(diào)好參數(shù),對(duì)專家的依賴性很強(qiáng)。更關(guān)鍵的問題是,我好不容易花一個(gè)月把參數(shù)調(diào)好,現(xiàn)在換一個(gè)數(shù)據(jù)集,我還需要再花半個(gè)月時(shí)間調(diào)參。另外是當(dāng)你的應(yīng)用場(chǎng)景發(fā)生變化的時(shí)候,新的客戶來了,這個(gè)時(shí)候你不得不調(diào),非硬著頭皮做不可,所以熬夜就成了家常便飯。

第四種,其它優(yōu)化手段

一種是低秩近似。我們把神經(jīng)網(wǎng)絡(luò)這些權(quán)列成一個(gè)矩陣,假設(shè)這個(gè)矩陣是低秩的,加上低秩正則以后,去優(yōu)化這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。換句話說,在你優(yōu)化整個(gè)目標(biāo)函數(shù)的時(shí)候,同時(shí)希望這個(gè)秩要低。如果把約束加在全連接層上,效果就比較好。

其二,去掉無用的連接和節(jié)點(diǎn)。神經(jīng)網(wǎng)絡(luò)每相鄰層之間都是連接,我們有的時(shí)候會(huì)問,所有這些連接都有用嗎,是不是有的連接沒有用?如果是這樣的話,我們是不是可以把沒有用的連接去掉。換句話說,看起來那個(gè)權(quán)重是有,但是其實(shí)很小,我們總覺得特別小的權(quán)重起的作用很弱,我們就把它去掉。這種想法有人做過,就是我先訓(xùn)練一個(gè)網(wǎng)絡(luò),訓(xùn)練好以后,我看哪個(gè)權(quán)重特別小,把它去掉,然后再重新訓(xùn)練。訓(xùn)練穩(wěn)定了以后,看哪個(gè)權(quán)重又小,再把它去掉,一點(diǎn)點(diǎn)這么去做。好像2015年NIPS會(huì)議上就有這樣一個(gè)文章發(fā)表,大概用的是這樣的思路。當(dāng)然也有人說,我對(duì)于你們的權(quán)重加一個(gè)稀疏的正則,去優(yōu)化。當(dāng)然這樣從做法上更流暢、更漂亮。后來有人說,除了連接很重要,中間有幾十萬個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都很重要嗎,能不能把某個(gè)節(jié)點(diǎn)去掉,這個(gè)做法就是節(jié)點(diǎn)稀疏。

其三,量化權(quán)重。現(xiàn)在整個(gè)權(quán)訓(xùn)練好了,但是因?yàn)橛泻芏鄼?quán),我要存這些權(quán)就很麻煩,因此大家想,這個(gè)權(quán)重不用浮點(diǎn)數(shù),用整數(shù)行不行?整數(shù)做的一種辦法就是,把所有的權(quán)重都聚類,在聚集多的地方取值,其它的用近似。還有一種做法就是,把所有的權(quán)重量化成幾個(gè)等級(jí),比如有4個(gè)等級(jí)。一個(gè)極端是兩個(gè)等級(jí),有和沒有,有的話就是1,沒有的話就是0。在這種情況下你會(huì)發(fā)現(xiàn),整個(gè)神經(jīng)網(wǎng)絡(luò)計(jì)算就變得非常非常的容易,只存在有和沒有,就變得非常的簡(jiǎn)單和快速。

當(dāng)然,所有這些方法都會(huì)帶來副作用,就是你的識(shí)別率會(huì)下降。有的時(shí)候我們會(huì)說,我們關(guān)注這個(gè)算法能不能放手機(jī)里去,因?yàn)橥ǔ碚f,放到手機(jī)里的很多應(yīng)用程序?qū)ψR(shí)別率沒有那么高的影響,認(rèn)為大眾對(duì)有些識(shí)別問題的要求可能沒有那么高。這樣識(shí)別率降一點(diǎn)也沒有特別大的關(guān)系。

Part 2: 子模函數(shù)和超模函數(shù)

子模函數(shù)和超模函數(shù)是后邊的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化要用到的知識(shí)。介紹的時(shí)候我先說明,這里面大概有10頁左右的PPT是從這個(gè)網(wǎng)站上拿過來的(網(wǎng)址:http://www.select.cs.cmu.edu/tutorials/icml08submodularity.html)。在2008年國(guó)際機(jī)器學(xué)習(xí)大會(huì)有一個(gè)特別好的tutorial,就是關(guān)于子模函數(shù)和超模函數(shù)。那個(gè)報(bào)告給我印象深刻,所以我就把其中的幾頁拿過來在上面做了一些改動(dòng)。不管怎么說,謝謝這兩個(gè)作者。課后大家如果對(duì)這個(gè)有興趣,可以去看看他們很完整的PPT。他們對(duì)子模函數(shù)和超模函數(shù)介紹非常詳細(xì),很感謝他們。

子模函數(shù)和超模函數(shù),是關(guān)于集合函數(shù)的一些性質(zhì)。集合函數(shù)是指,這個(gè)函數(shù)是定義在它的子集上的函數(shù),這個(gè)函數(shù)在每個(gè)子集上的取值。通常我們認(rèn)為空集函數(shù)是對(duì)應(yīng)的是0。

什么是子模函數(shù)?子模函數(shù)是怎么形成的,我們不去管它,可以把它看成一個(gè)黑箱(black box),但是我們希望這個(gè)函數(shù)具有一個(gè)這樣的性質(zhì):對(duì)于任給的A、B兩個(gè)子集, F(A)+F(B) ≥ F(A ∪ B)+F(A ∩ B)。

如果它滿足這個(gè)條件,就說它是一個(gè)子模函數(shù)。這樣的性質(zhì)也等價(jià)于這個(gè)性質(zhì):有兩個(gè)集合,一個(gè)是A,一個(gè)是B,A集合是B集合的一部分。這種情況下如果在A集合上加上一個(gè)元素,這個(gè)集合就變大一點(diǎn),變大了以后,這個(gè)函數(shù)會(huì)比原來A集合函數(shù)增加了一部分,在小的集合上增加的量要更大大。換句話說,小集合加上一個(gè)元素帶來的改進(jìn)更大,而在大的集合上增加同樣的元素以后,它帶來的影響會(huì)比較小一些。

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

什么是超模函數(shù)?如果F是一個(gè)子模函數(shù),前面加一個(gè)負(fù)號(hào),那就是超模函數(shù)。

這件事有點(diǎn)太抽象,我們舉一個(gè)具體的問題,這樣大家就會(huì)有很直觀理解。假設(shè),現(xiàn)在有一個(gè)房間,我們需要在房間里布置一些傳感器,布置傳感器是為了對(duì)整個(gè)房間進(jìn)行數(shù)據(jù)采樣。每個(gè)每個(gè)傳感器會(huì)有一個(gè)覆蓋面積。我們希望放上有限的傳感器,覆蓋的面積越大越好。在這樣一個(gè)問題里邊,對(duì)于任何一個(gè)集合,F(xiàn)(A)=A能夠覆蓋的面積。所謂的A是什么呢?就是你放的傳感器,因?yàn)槊總€(gè)傳感器會(huì)放在一個(gè)位置上。

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

這個(gè)問題里的F是一個(gè)子模函數(shù)(我定義F是它覆蓋的那個(gè)面積)。為什么呢?可以設(shè)想,我有兩種情況,一種情況是我放2個(gè)傳感器,還有一種情況是,我放4個(gè)傳感器,其中包含了剛才的兩個(gè)傳感器。我在2和4個(gè)傳感器的布局里,分別再加上同一個(gè)位置的1個(gè)傳感器,那么你會(huì)發(fā)現(xiàn)上面小的集合情況(2個(gè)傳感器)下帶來的面積增加量比較大。而原來4個(gè)傳感器的集合增加的面積部分比較小。這是一個(gè)非常直觀的例子。

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

子模函數(shù)有一個(gè)很有意思的性質(zhì):假如Fi是子模函數(shù),這個(gè)λi>0,它的正的線性疊加仍然是子模函數(shù)。就是在正的這種線性組合的意義上它是封閉的。

我們?cè)趺慈ダ斫庾幽:瘮?shù)?對(duì)子模函數(shù)的尋優(yōu)對(duì)應(yīng)的是一個(gè)離散的優(yōu)化問題,我們可能知道更多的是連續(xù)的優(yōu)化問題。在連續(xù)優(yōu)化問題里邊我們比較喜歡的一個(gè)問題叫凸問題,就是說白一點(diǎn),我們只有一個(gè)單峰。這種情況下找最大值相對(duì)比較容易。我們通過求偏導(dǎo),原則上一定能找到最優(yōu)值。但是到離散問題以后,什么是凸我們就不知道了。而子模函數(shù)類似于我們?cè)谶B續(xù)問題里的凸函數(shù)。下面這個(gè)例子會(huì)呈現(xiàn)子模函數(shù)與凸問題的關(guān)系。

假設(shè)有一個(gè)這樣的函數(shù)g,它是從整數(shù)到實(shí)數(shù)的一個(gè)映射,函數(shù)F定義在A集合上,這個(gè)子模函數(shù)怎么定義呢?它就定義成我這個(gè)集合的“大小”,把集合別的因素都去掉,只考慮它的大小。這樣如果兩個(gè)集合a是b的子集,那么 a的大小 < b的大小。這個(gè)函數(shù)的特點(diǎn)就在于,在小的地方增加一點(diǎn)所帶來的增益,和在大的地方同樣增加一點(diǎn)所帶來的增益,前者要大。所以你也可以認(rèn)為,子模函數(shù)是離散函數(shù)的一種凸性質(zhì)。

 深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

當(dāng)然你會(huì)說我們還有別的運(yùn)算,比如說兩個(gè)子模函數(shù)F1、F2,求最大,那還是子模函數(shù)嗎?它的最大max(F1,F2)不一定是子模函數(shù)。它的最小,就是這兩個(gè)子模函數(shù)取最小,min(F1,F2)一般來說也不一定是子模函數(shù)。

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

 深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化


深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化


更多雷鋒網(wǎng)相關(guān)文章:

他們創(chuàng)建了一個(gè)“算法商店”,讓普通人也能變身AI專家

從數(shù)學(xué)概念入手,一文帶你理解感知機(jī)是什么

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

深度 | 清華大學(xué)自動(dòng)化系張長(zhǎng)水教授:神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)優(yōu)化

分享:
相關(guān)文章

編輯

關(guān)注人工智能(AI)報(bào)道
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說