0
本文作者: 王星 | 2014-06-24 12:50 |
上周,亞馬遜推出了其首款智能手機Fire Phone,其中號稱能“掃描一切”的圖像識別應用Firefly被認為是該產(chǎn)品上最大的亮點,也引起了業(yè)界對于圖像識別技術的新一輪關注。
另一方面,由于Fire Phone尚未出貨,許多關注Firefly的人對這款產(chǎn)品提出了一系列疑問:它的識別準確度如何?亞馬遜的數(shù)據(jù)是否能幫它建立起門檻?它又會給圖像識別領域帶來怎樣的影響?
在此之前,已有不少圖像識別領域的創(chuàng)業(yè)團隊在圖書、商品、人臉、視頻識別方面做了不少嘗試,并推出了相關應用,例如來自提供圖像識別和增強現(xiàn)實解決方案的亮風臺、專注于人臉識別的Face++以及來自硅谷的圖像識別創(chuàng)業(yè)公司Orbeus。
近日,亮風臺創(chuàng)始人廖春元、Face++聯(lián)合創(chuàng)始人印奇以及Orbeus的聯(lián)合創(chuàng)始人劉天強、王盟先后接受了雷鋒網(wǎng)的采訪,談及了自己對于Firefly的看法。
雷鋒網(wǎng):之前是否關注過亞馬遜在圖像識別方面的進展?
廖春元:在4、5年前,亞馬遜收購了SnapTell公司時就開始關注。
王盟:亞馬遜一直花了很多精力做圖像識別,在歷屆計算機視覺會議上都能看到他們的身影。他們的A9團隊一直在做基于特征點的圖像匹配,效果還不錯。
印奇:有。之前亞馬遜就推出了Flow這個應用,它是Firefly的前身,在移動端商品、視覺搜索領域做出了很前沿的嘗試。
雷鋒網(wǎng):你認為亞馬遜在圖書封面、商品包裝、視頻流媒體方面的圖像識別的準確率能達到怎樣的水平?
王盟:圖書封面、商品包裝基本已經(jīng)很成熟了。產(chǎn)品實物識別還比較難,不過隨著最近幾年深度學習的成熟,被解決的時機也指日可待。
廖春元:沒有專門的測試集我無法給出準確估計,但亞馬遜在這方面布局很久,應該不差。
雷鋒網(wǎng):在Firefly涉及到的這些領域里,哪一個的技術難度最高?
印奇:這些技術里,類似圖書封面這類的視覺搜索相對簡單,因為有很多圖像和OCR的信息。商品包裝和流媒體搜索用的是不同技術,都很有挑戰(zhàn)性。
廖春元:在識別圖書、包裝和視頻等內(nèi)容中,識別技術上應該都差不多。如果要根據(jù)視頻中任意一幀,識別出該視頻的來源,則難度會相對高一些,因為需要索引的東西比普通書籍封面等多得多。
王盟:準確的文字檢測。
劉天強:就單純圖像、模式識別這些方面,識別精度亞馬遜并不出眾,但是Fire Phone設計上,多攝像頭對于形成物體的三維信息有很大的幫助,因此對于物體識別來說,他們能夠拿到比其他手機更全的信息,降低了識別的門檻。具體來說,其技術特點在于:一是用更多的特征數(shù)據(jù)來區(qū)分物體,二是將算法構(gòu)架在Amazon巨大的商品數(shù)據(jù)庫上面,三是對區(qū)分算法精度要求很高(如果正如他們聲稱的能夠識別超過一億類的物品,實在是一件了不起的工作)。
雷鋒網(wǎng):亞馬遜擁有大量的圖書、商品、電影資源,他們的數(shù)據(jù)庫是否能夠成為他們在這些領域的圖像識別方面的門檻?
印奇:數(shù)據(jù)一定是一個核心資源,但未來這些數(shù)據(jù)一定會越來越開放。最終還是“搜索引擎”本身的技術能有多準確,多普適。
劉天強:當然,這是這項技術最高的門檻,算法誰都可以提高,但是數(shù)據(jù)卻并不是誰都有,海量的帶標注的數(shù)據(jù),就更加難得。
廖春元:是的。
雷鋒網(wǎng):你們是否會與其他的電商、視頻網(wǎng)站合作推出類似的產(chǎn)品?
劉天強:目前我們在App store上已經(jīng)有了ReKoEye這個應用,掃描物品得到其信息,暫時沒有推出類似產(chǎn)品的計劃,因為兩個原因。第一,算法精度達不到識別具體品牌的程度,例如我們可以識別某個物體是衣服,甚至可以識別出衣服的種類,但是識別不出來是哪些牌子,這會給消費者產(chǎn)生誤導。想象這樣的場景:一個用戶用我們的app掃眼前朋友身上的衣服,我們App就告訴她這是件短袖,然后推薦網(wǎng)站上同顏色的短袖,這件事情不是不能做,但目前已經(jīng)有不少相關App出現(xiàn),個別app還依托于電商巨頭的數(shù)據(jù)庫(哪一家你懂的?。谏虡I(yè)上的表現(xiàn)也就是不溫不火。第二,我們認為這類App,并不是目前物體識別技術最佳的應用領域,因為目前的技術更加適合在大的數(shù)據(jù)集上跑,做統(tǒng)計、做搜索或者視頻更合適,而無法保證對單張圖片的識別95%以上都正確,這樣就很難做到很好的用戶體驗。
雷鋒網(wǎng):此前是否有手機廠商希望與你們合作,把圖像識別的功能深度集成在手機中?
印奇:我們的技術被應用在很多手機中,但現(xiàn)階段都沒有做深度合作,未來有可能。
劉天強:有的,還不少,也考慮過,但是我們暫時打算繼續(xù)堅持云計算路線,因為我們相信未來多媒體數(shù)據(jù)最終一定都是在云端的。
廖春元:是,比如最近和Oppo合作推出的O-video就有類似功能,只不過數(shù)據(jù)量沒有亞馬遜大,還在擴充中。
雷鋒網(wǎng):Firefly會給整個圖像識別領域帶來怎樣的影響?
劉天強:3D方面的識別會被帶起來,之前深度學習等工作,目前在視覺上比較常見的領域還是2D圖像,如果亞馬遜這種布局攝像頭的方式成為業(yè)界普遍接受的標準,那么甚至有可能本質(zhì)改變圖像的表示形式,例如現(xiàn)在圖像就是由像素點組成的,未來會不會由三維點陣組成的3D模型呢?讓我們拭目以待。
廖春元:會加速教育用戶,刺激創(chuàng)新,推動這個領域技術的產(chǎn)品化
印奇:Firefly算是第一個大規(guī)模商業(yè)化的移動端視覺搜索,會是里程碑意義的?,F(xiàn)在大家都在想什么才是真正移動搜索的形態(tài),也許Firefly會給大家很多啟發(fā)。
雷鋒網(wǎng):對你們公司呢?
印奇:未來我們會在人臉識別領域持續(xù)專注的同時,會從人臉領域擴展到更廣的圖像識別理解領域。不排除做視覺搜索的可能性。
廖春元:既有挑戰(zhàn)也有機會。挑戰(zhàn)是在世界范圍內(nèi)有這樣強勁的對手;機會是為我們樹立了一個行業(yè)標桿,加速中國市場的培育。
王盟:讓人們知道我們的東西的重要性。
雷鋒網(wǎng):它能否幫助用戶真正養(yǎng)成用手機掃描圖片、視頻進行識別的習慣?
劉天強:亞馬遜不是第一家做了類似的產(chǎn)品,過去其他公司用了眾包的方法做,比如IQ Engine和Camera Find,效果也很精確,但暫時都沒有取得商業(yè)上的成功。亞馬遜和他們的區(qū)別在于識別全自動,但對于真正需要購買該商品的用戶來講,不會在乎多等幾秒鐘時間,更何況目前亞馬遜的App如果沒有Fire Phone的支持,對于非剛性的物體的識別精度還不夠,不如目前市面上做物體識別的許多公司,比如我們Orbeus。
廖春元:手機掃描只是交互的實現(xiàn)方式。從用戶體驗的本源來看,當一個人看到當下周邊環(huán)境中有感興趣的目標時,的確有沖動想要了解更多。這個產(chǎn)品以簡單的輸入方式滿足用戶的這種需求,借助亞馬遜強大的內(nèi)容和技術資源,是有可能培養(yǎng)用戶習慣的。也許將來不一定是用手機,可能是和智能眼鏡,但視覺搜索這個功能會像當年的關鍵字搜索一樣成為生活必需。
印奇:我覺得因為在手機端文字輸入太低效,未來大家一定會像現(xiàn)在習慣掃二維碼一樣習慣去掃更多的東西,F(xiàn)irefly是一個很好的開端。
雷鋒網(wǎng):Firefly也提供了SDK,會有更多人用他們的圖像識別技術直接開發(fā)應用,是否擔心它會對你們帶來沖擊?
劉天強:當然,在物體識別這個領域必然會有競爭,但是Orbeus的技術更加細分,除了物體場景識別外,還支持用戶自定義數(shù)據(jù)庫,而不僅僅只是識別亞馬遜庫里才有的商品。例如用戶想識別狗,想識別貓,這些活物,就不會是亞馬遜上的商品;再比如用戶希望手機能識別所有Facebook的好友的臉,這些數(shù)據(jù)集都是非常個性化的,亞馬遜并不具備這方面的技術優(yōu)勢,對他們目前的布局也沒有太大的貢獻。因此,在大的識別領域,我們并不構(gòu)成競爭。
廖春元:作為一個成功的產(chǎn)品,除了識別算法外,本地化的數(shù)據(jù)積累、產(chǎn)品設計、市場營銷等都必不可少。我們在國內(nèi)有先發(fā)優(yōu)勢,這和云計算領域國內(nèi)產(chǎn)品和AWS的競爭類似。另一方面,使用SDK開發(fā)會有一定局限性,難以在垂直領域優(yōu)化性能;而我們公司擁有自己的全套自主知識產(chǎn)權(quán)識別算法和系統(tǒng),最靈活,最容易單點突破。
雷鋒網(wǎng):未來是否會有更多手機搭載四枚或更多的前攝像頭,以支持這類功能?
廖春元:多鏡頭手機是趨勢,也是應對用戶對3D輸入、輸出的要求。
印奇:硬件永遠是軟件的延伸。如果亞馬遜這些視覺功能未來被大家廣泛使用,硬件改造難度并不高。
(題圖來源:The Hindu)
“硅谷鋒向標”(guigufxb),雷鋒網(wǎng)硅谷新聞中心出品,關注硅谷動向的科技人士不可不看的前沿資訊平臺。請通過微信掃描以下二維碼關注:
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。