0
雷鋒網(wǎng) AI 科技評(píng)論按:機(jī)器學(xué)習(xí)的研究正進(jìn)行的如火如荼,各種新方法層出不窮。盡管這樣,還有一個(gè)問(wèn)題擺在面前,研究這些算法對(duì)于現(xiàn)實(shí)有什么用。特別是當(dāng)討論起機(jī)器學(xué)習(xí)在手機(jī)和其他設(shè)備上的應(yīng)用時(shí),經(jīng)常會(huì)被問(wèn)到到:「機(jī)器學(xué)習(xí)有什么殺手級(jí)應(yīng)用?」
機(jī)器學(xué)習(xí)工程師 Pete Warden 思考了很多種答案,包括從語(yǔ)音交互到全新的使用傳感器數(shù)據(jù)的方法等,但他認(rèn)為實(shí)際上短期內(nèi)最激動(dòng)人性的一個(gè)方向是壓縮算法。盡管壓縮算法在研究領(lǐng)域基本上是人盡皆知的一個(gè)方向,還是有很多人還是會(huì)對(duì)這個(gè)看法感到驚訝。在本篇博文中,Pete Warden 分享了他的關(guān)于為什么壓縮算法如此有前景的看法。雷鋒網(wǎng) AI 科技評(píng)論編譯如下。
當(dāng)我讀到一篇名為「神經(jīng)自適應(yīng)內(nèi)容感知的互聯(lián)網(wǎng)視頻分發(fā)」(Neural Adaptive Content-aware Internet Video Delivery)的論文的時(shí)候,我意識(shí)到了這個(gè)領(lǐng)域的重要性。這篇文章在總結(jié)里說(shuō)到,通過(guò)神經(jīng)網(wǎng)絡(luò),在保證帶寬相同的情況下,該方法能夠?qū)①|(zhì)量體驗(yàn)指標(biāo)提高 43%?;蛘咴谠诒WC相同的觀看質(zhì)量下,減少 17% 的帶寬使用。實(shí)際上還有很多類(lèi)似研究方向的論文,比如生成式壓縮(https://arxiv.org/pdf/1703.01467.pdf )和自適應(yīng)圖像壓縮(https://arxiv.org/pdf/1705.05823.pdf ) ,但為什么沒(méi)有聽(tīng)說(shuō)到更多的關(guān)于壓縮算法的機(jī)器學(xué)習(xí)實(shí)際應(yīng)用呢?
所有這些基于機(jī)器學(xué)習(xí)的壓縮方法都需要相對(duì)較大的神經(jīng)網(wǎng)絡(luò),并且所需的計(jì)算量與像素?cái)?shù)量成正比。這意味著高分辨率圖像或者高幀率視頻需要更多的計(jì)算能力,可能遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)前移動(dòng)電話或類(lèi)似設(shè)備能夠提供計(jì)算量。目前大多數(shù)CPU能夠處理每秒幾百億次的算術(shù)運(yùn)算,而在高清視頻上運(yùn)行機(jī)器學(xué)習(xí)壓縮算法很容易就需要十倍以上的計(jì)算量。
好消息是現(xiàn)在有了一些新的硬件解決方案,比如 Edge TPU 等,在未來(lái)可能能夠提供更多可用的計(jì)算資源。我希望我們能夠?qū)⑦@些資源應(yīng)用于各種壓縮問(wèn)題,從視頻和圖像以及到音頻。
我認(rèn)為機(jī)器學(xué)習(xí)非常適合于壓縮算法的另一個(gè)原因是,我們最近在自然語(yǔ)言處理中得到了很多有趣的結(jié)果。如果你仔細(xì)琢磨圖片的話,其實(shí)是可以將圖像描述看作是圖片的一種終極壓縮方法。我一直以來(lái)都希望創(chuàng)建一個(gè)項(xiàng)目,一個(gè)能夠以每秒一幀的速度給照相機(jī)拍下的圖片配上描述文字,之后將這些描述文字寫(xiě)入到日志文件中。通過(guò)這個(gè)就能夠得到一個(gè)非常簡(jiǎn)單的故事,講述著相機(jī)隨著時(shí)間的推移看到了什么。我認(rèn)為這就可以看作一個(gè)能夠敘事的傳感器。
我將這種東西叫做壓縮的原因是,我們其實(shí)可以使用一個(gè)生成神經(jīng)網(wǎng)絡(luò)來(lái)根據(jù)字幕生成圖片。這個(gè)生成出的圖片并不一定要與輸入圖片完全一樣,只要它們具有同樣的意思就可以了,這就可以看作是一個(gè)解壓縮算法。如果想要輸出的結(jié)果與輸入盡可能相似的壓縮算法,可以參考圖像風(fēng)格化的算法,將圖片壓縮為每個(gè)場(chǎng)景的輪廓線。這些算法與傳統(tǒng)壓縮算法的共同之處在于,它們找到了輸入中對(duì)于我們?nèi)祟?lèi)最重要的信息,而忽略了其他的細(xì)枝末節(jié)。
語(yǔ)言世界也有類(lèi)似的趨勢(shì)。語(yǔ)音識(shí)別技術(shù)正在迅速改進(jìn),合成語(yǔ)音的能力也在迅速提高。識(shí)別過(guò)程可以看作是將音頻壓縮為自然語(yǔ)言文本的過(guò)程,而合成則正好反過(guò)來(lái)。而人之間的對(duì)話可以通過(guò)將音頻翻譯為文字表示而的到極大的壓縮。我現(xiàn)在還很難想象是否需要走那么遠(yuǎn),但是似乎有可能通過(guò)我們對(duì)與語(yǔ)言特征的新理解來(lái)實(shí)現(xiàn)更好的壓縮質(zhì)量以及更低的帶寬。
我甚至看到了將機(jī)器學(xué)習(xí)壓縮算法應(yīng)用到文本本身的可能。Andrej Karpathy 的 Char-RNN(https://github.com/karpathy/char-rnn)展示了神經(jīng)網(wǎng)絡(luò)可以很好的模擬給定樣本的風(fēng)格,這種學(xué)習(xí)風(fēng)格的本質(zhì)與壓縮問(wèn)題是很相似的。如果考慮一下典型的 HTML 頁(yè)面有多少冗余,機(jī)器學(xué)習(xí)壓縮算法其實(shí)有很好的機(jī)會(huì)去改進(jìn) gzip。但這只是我的一個(gè)猜想,畢竟我沒(méi)有機(jī)器學(xué)習(xí)文本壓縮的經(jīng)驗(yàn)。
在我創(chuàng)業(yè)生涯中,我曾嘗試向企業(yè)銷(xiāo)售產(chǎn)品而最終失敗,從中我學(xué)到了一件事情,就是如果企業(yè)已經(jīng)有大量的資金分配在你所銷(xiāo)售的產(chǎn)品類(lèi)別上,那么進(jìn)行銷(xiāo)售會(huì)更加容易。企業(yè)對(duì)于某種產(chǎn)品有預(yù)算意味著公司已經(jīng)做出了是否要在該項(xiàng)解決方案上花錢(qián)的決定,現(xiàn)在的唯一問(wèn)題是要購(gòu)買(mǎi)哪種解決方案。這就是為什么我認(rèn)為機(jī)器學(xué)習(xí)可以在這個(gè)領(lǐng)域取得巨大進(jìn)展的原因之一,因?yàn)橹圃焐桃呀?jīng)擁有專(zhuān)門(mén)用于視頻和音頻的壓縮工程師,以及對(duì)應(yīng)的資金和芯片制造產(chǎn)業(yè)。如果我們能夠證明將機(jī)器學(xué)習(xí)添加到現(xiàn)有的解決方案中可以提高某些指標(biāo),如質(zhì)量速度或者功耗,這些方法就能夠很快被采用。
帶寬成本需要平攤到用戶(hù)和運(yùn)營(yíng)商身上,而質(zhì)量和續(xù)航是產(chǎn)品的一大賣(mài)點(diǎn),因此采用機(jī)器學(xué)習(xí)進(jìn)行壓縮相比于其他應(yīng)用方向有更直接的動(dòng)機(jī)。現(xiàn)有的研究表明,機(jī)器學(xué)習(xí)算法進(jìn)行壓縮非常的高效,而且我樂(lè)觀的認(rèn)為還有很多方法等著被發(fā)現(xiàn),所以我希望壓縮算法會(huì)成為機(jī)器學(xué)習(xí)的一個(gè)重要應(yīng)用。
via Pete Warden's blog,雷鋒網(wǎng) AI 科技評(píng)論編譯
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。