4
本文作者: 圖普科技 | 2016-06-17 19:03 |
雷鋒網(wǎng)按:本文作者系圖普科技工程師,雷鋒網(wǎng)原創(chuàng)首發(fā)。
在剛剛結(jié)束的舊金山蘋果全球開發(fā)者大會上,蘋果軟件工程高級副總裁 Craig Federighi 講述了新的照片管理功能 Photos。
在iOS 10的照片中,蘋果利用深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)徹底更新了照片應(yīng)用程序,通過人臉識別和物體識別自動識別圖片內(nèi)容,給相冊中的人物分類。并且,新增的“回憶”功能,可以基于照片中的位置、人、場景和主題聚集在一起,然后選擇音樂配以創(chuàng)建“短期、中期、長期”的視頻或者電影。
例如,它會識別與旅行相關(guān)的所有照片,將它們集中置于一個相冊,也許命名為“家庭度假”;或者說它會識別散落在相冊各處的母親的照片,并將它們分組集中起來。
簡單來說,對圖像的深度學(xué)習(xí)算法是通過多層的神經(jīng)網(wǎng)絡(luò),不斷地提取圖像的高層次抽象具有強(qiáng)表達(dá)能力的語意層次的特征,即去偽存真的過程,有了很好的特征,就可以很好地對圖像進(jìn)行各種處理。
機(jī)器視覺領(lǐng)域以前提取特征的方式多為人工設(shè)定,而現(xiàn)在深度學(xué)習(xí)的方式是通過大規(guī)模的數(shù)據(jù)讓算法自己去學(xué),人的設(shè)定總是有局限的,而現(xiàn)在的深度學(xué)習(xí)可以在大規(guī)模數(shù)據(jù)的幫助下學(xué)習(xí)出人無法設(shè)計(jì)出的特征,這也是深度學(xué)習(xí)的魔力來源。當(dāng)然現(xiàn)在一個基于深度學(xué)習(xí)的產(chǎn)品系統(tǒng)是非常復(fù)雜的,其還會結(jié)合時序信息,上下文的建模來達(dá)到驚人的能力。
無論是Apple,Google,Microsoft Photos里面使具體技術(shù)細(xì)節(jié)我們無從探知,畢竟這是這些公司關(guān)于人工智能的機(jī)密技術(shù),但是我們還是可以從其提供的功能表象,再結(jié)合正在機(jī)器視覺領(lǐng)域掀起革命的深度學(xué)習(xí)技術(shù),對其背后的技術(shù)原理進(jìn)行一番推測。
無論是按人臉、地理位置、記憶分組,其背后本質(zhì)上都是 image classification,clustering,sorting, tagging等機(jī)器視覺任務(wù)。現(xiàn)在流行的深度學(xué)習(xí)技術(shù)(無論是深度卷機(jī)網(wǎng)絡(luò)CNN還是LSTM長短時記憶網(wǎng)絡(luò))近兩年來在此類任務(wù)上取得了驚人的成績,諸如Apple,Google等IT巨頭公司必然大量儲備了此類技術(shù),同時加上去獨(dú)一無二的海量數(shù)據(jù)和用戶運(yùn)用場景,使得這些公司可以運(yùn)用這些深度學(xué)習(xí)技術(shù)將看起來很酷炫的機(jī)器視覺任務(wù)推向大眾。
Google于2015年率先推出了基于人工智能的Photos產(chǎn)品,其可以將用戶圖片聚合于people,places和things這三個類別中,Apple在剛剛結(jié)束的WWDC上推出的Photos也緊隨其后,推出了類似的功能,如人臉識別,和按官方稱的按memories進(jìn)行分組(里面也包含預(yù)測location功能,同時能在map上顯示出來),具體不同的業(yè)務(wù)場景取決于各個公司對其客戶使用方式的把控,但是從業(yè)務(wù)邏輯和功能背后的技術(shù)上看并沒有顯出太大差異。
由于Google是一家互聯(lián)網(wǎng)導(dǎo)向公司,在云計(jì)算上有非常強(qiáng)的實(shí)力,所以Google photos是使用云的方式對客戶圖片進(jìn)行存儲和各種人工智能的處理,這樣的方式使得Google可以使用其云端強(qiáng)大的計(jì)算能力去進(jìn)行很復(fù)雜的運(yùn)算處理,從而達(dá)到非常智能的效果,但是客戶需要將其照片同步至云端,這會帶來一些隱私的問題。
而Apple作為硬件為主體的公司,將人工智能的功能運(yùn)行在其公司的移動設(shè)備是其達(dá)到最大效應(yīng)的方式也是最自然選擇,所以Apple的photos的智能處理運(yùn)行于本地,這就使得用戶不需要連上云就可以享受到這些功能,這極大打消了用戶的隱私方面的擔(dān)憂,這確實(shí)是Apple一個很大的賣點(diǎn)。
另外,Apple在本地,尤其移動設(shè)備上,運(yùn)行人工智能算法是具有很大意義的。如何在有限的計(jì)算資源上達(dá)到高性能和低功耗,是其著重考量的點(diǎn),當(dāng)前深度學(xué)習(xí)在模型能力探索到一定階段后(變深變強(qiáng)),學(xué)術(shù)界和工業(yè)界的注意力慢慢也轉(zhuǎn)向模型大規(guī)模使用的層次,即變小變快——
蘋果的人工智能在本地運(yùn)行的背后應(yīng)該很大依賴于現(xiàn)在學(xué)術(shù)界正在重點(diǎn)關(guān)注的研究領(lǐng)域,模型壓縮 (model compression),也就是在稍微損失準(zhǔn)確率的情況下,讓所需計(jì)算量大幅度降低,使得深度學(xué)習(xí)的模型可以運(yùn)行在計(jì)算能力受限的設(shè)備上。
這方面是一個巨大的挑戰(zhàn),至于Apple是否有獨(dú)有領(lǐng)先學(xué)界業(yè)界的黑科技使得photos做到低功耗高性能的運(yùn)用,這就不得而知,所以Apple的photos本地運(yùn)行深度學(xué)習(xí)算法更加令人期待。
同時我們也不能忘記IT另一個在深度學(xué)習(xí),機(jī)器視覺技術(shù)上有深厚積累的微軟,微軟也有類photos產(chǎn)品,但是可能由于其并沒有太強(qiáng)的用戶場景,其photos并沒有作為一個獨(dú)立的產(chǎn)品推出,所以沒有引起太大關(guān)注,考慮到微軟在此方面非常好的技術(shù),對此感到有點(diǎn)遺憾。
目前,圖像識別技術(shù)是基于深度學(xué)習(xí)算法多維度解讀圖像內(nèi)容,需要強(qiáng)大的計(jì)算能力來支撐機(jī)器的程序運(yùn)行。即使是比較簡單的深度學(xué)習(xí)圖片識別,比如在2012年的ImageNet大賽上的也需要上億次的運(yùn)算,而在四年后的今天,深度學(xué)習(xí)算法對一張圖片進(jìn)行解讀都需要進(jìn)行幾十億的運(yùn)算,甚至上百億,但是這些都是在云端進(jìn)行的運(yùn)算,并且有專用的硬件系統(tǒng),所以能夠在較短的時間內(nèi)進(jìn)行高速大量的運(yùn)算。
根據(jù)我們的自己的經(jīng)驗(yàn),tuputech的圖像識別系統(tǒng),每天進(jìn)行超過9億張的圖片識別,并且還需要較高的識別精確度,這對于模型的優(yōu)化、計(jì)算能力、帶寬的傳輸效率等要求都是非常高的。
但是手機(jī)端的本地計(jì)算不同于云端計(jì)算,如果在手機(jī)端進(jìn)行如此高速、大量的運(yùn)算,在算法層面技術(shù)難點(diǎn)主要還是在于這三個方面:
第一、模型的復(fù)雜程度,也就是模型的聰明程度、準(zhǔn)確率、精確度等;
第二、計(jì)算時間,指計(jì)算一張圖片需要花多長時間;
第三、功耗,指的是計(jì)算一張圖片需要消耗的手機(jī)電池的電量
并且手機(jī)電池的續(xù)航能力一直是各個廠商想要攻破的難題,所以如果缺乏適配于手機(jī)端的計(jì)算能力,直接在手機(jī)上跑幾十億次的運(yùn)算,可能只理解幾張圖片,手機(jī)電池就會被耗光。
另外,對于硬件能力的提升也是一大重點(diǎn),怎么設(shè)計(jì)出更好的硬件去支持現(xiàn)在的深度學(xué)習(xí)算法,從而降低功耗、加快速度,我想Apple作為有硬件閉環(huán)的公司,在硬件上應(yīng)該做了很大的定制化和創(chuàng)新, 使得基于人工智能的photos產(chǎn)品可運(yùn)用在手機(jī)端,這也是Apple相對于其他互聯(lián)網(wǎng)巨頭得天獨(dú)厚的優(yōu)勢,不要忘記Apple是硬件導(dǎo)向的巨頭。
目前的人工智能基本都是在可控性較好的云端,而移動設(shè)備的計(jì)算能力和能耗都還不夠好,所以可能計(jì)算結(jié)果沒那么精準(zhǔn)、計(jì)算速度沒那么快,但若移動設(shè)備裝配上人工智能的能力,無論是商業(yè)市場上還是真正改變?nèi)祟惖纳钌?,想象力是巨大的。所以Apple、Google和Microsof還是會選擇將圖像識別技術(shù)應(yīng)用在手機(jī)端上,他們本身就是手機(jī)服務(wù)商,有這樣的市場需求,他們自然會開始重視深度學(xué)習(xí)在端上的應(yīng)用,相對于其他的手機(jī)應(yīng)用,這是他們將深度學(xué)習(xí)系統(tǒng)全部應(yīng)用在端的一個集合。比如說蘋果的硬件包括手機(jī)、iPad、watch、Mac等,其所有的深度學(xué)習(xí)應(yīng)用的程序和接口都是一樣的,擁有統(tǒng)一的神經(jīng)網(wǎng)絡(luò)庫。
畢竟移動端的應(yīng)用更加貼近人類的生活。只要有市場需求,就有發(fā)展,正如我們現(xiàn)在的手機(jī)能力比當(dāng)年登月的芯片的計(jì)算能力高了不知道多少倍,那些芯片幫助人登上了月球,而我們現(xiàn)在卻用更好的芯片刷微博。其實(shí)也是在說,技術(shù)發(fā)展得確實(shí)非常快,可能現(xiàn)在覺得不大可能的事情,一兩年后可能人人都會在談?wù)f論道。
但是這項(xiàng)自動將相冊分類功能看上去好像只是錦上添花的工作,如果這個功耗太大,而且準(zhǔn)確率還不夠高,就會得不償失,用戶就不希望這個功能消耗更多的電量,甚至于很多客戶寧愿不要,因?yàn)樗麄兛隙ㄖ罆碾娏俊?/span>
但是我們tuputech的技術(shù)控們還提了個問題,其實(shí)大家還會擔(dān)憂“隱私”的問題,因?yàn)橐粋€太智能的東西在幫你打點(diǎn)東西,大多數(shù)人會有隱私被侵犯的感覺,所以智能更適合做一些不太敏感的分類。不然相冊里有一些黃圖,系統(tǒng)告訴你是黃圖并且自動幫你歸類,你會沒有安全感,同時會產(chǎn)生恐懼,最后對整個產(chǎn)品喪失信任,而且現(xiàn)在公眾確實(shí)還不大適應(yīng)人工智能,還需要接受的時間。
但是人工智能、圖像識別在手機(jī)端的應(yīng)用也是很廣泛的,在進(jìn)入移動互聯(lián)網(wǎng)時代后,智能廣告、推薦已經(jīng)從輔助路徑轉(zhuǎn)變到了主路徑上,比如說手機(jī)淘寶,其首頁的商品推薦已經(jīng)個性化,很大程度上提升了首頁的分發(fā)能力;而今日頭條新聞客戶端,其主打特色也將智能推薦的資訊內(nèi)容放入了產(chǎn)品主路徑等。這些智能推薦引擎用大量的細(xì)分內(nèi)容協(xié)助廣告主細(xì)分了不同的用戶,更精準(zhǔn)得進(jìn)行廣告投放。
除此之外,現(xiàn)在也是一個移動視頻應(yīng)用爆炸增長的時代,一個較大的直播平臺的用戶量在高峰期可以同時幾千萬、甚至上億人在線,但是目前直播獲益方式還是以與網(wǎng)紅分成為主。
如果通過圖像識別對主播進(jìn)行分類,可以得出直播平臺的內(nèi)容是否健康,或者給主播打上標(biāo)簽,平臺是否需要培養(yǎng)和扶持一些比較稀缺、受歡迎的主播?;蛘吒鶕?jù)直播的視頻內(nèi)發(fā)出的所有圖像信息,包括人物、地點(diǎn)、活動、事物、背景等,在以人工智能技術(shù)作為基本支撐下,可以幫助用戶智能搜索所需信息,像KTV 、餐廳、教室等,機(jī)器人可以根據(jù)用戶偏好,智能推送相應(yīng)直播視頻,幫助直播企業(yè)更好地進(jìn)行用戶互動運(yùn)營。這些都是可以提高產(chǎn)品和用戶體驗(yàn),或者企業(yè)想將這些信息流量變現(xiàn),均可按企業(yè)需求定制。
雷鋒網(wǎng)注:本文為雷鋒網(wǎng)原創(chuàng)約稿首發(fā)文章 ,轉(zhuǎn)載請聯(lián)系我們授權(quán)并注明出處和作者,不得修改內(nèi)容。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。