丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
特寫 正文
發(fā)私信給宗仁
發(fā)送

3

親測:讓盲人“看見”圖片 我們離這項黑科技有多遠

本文作者: 宗仁 2016-04-18 08:20
導語:iPhone自帶的voiceover功能對于本來有文字描述的東西都能讀出來,這跟Facebook本身圖片識別的功能牛不牛掰并無關(guān)系,真正牛掰的是它對沒有任何標簽

當我們還在為語音識別的普及歡呼雀躍的時候,圖像識別像暗夜里的蔓藤,正悄悄地在伸展自己的身體。

上周Facebook告訴我們它們正在開發(fā)的功能已經(jīng)能讓盲人”看到“圖片的時候,曬圖狂們突然發(fā)現(xiàn),哇,原來圖像識別已經(jīng)離我們的生活如此之近,以至于盲人伯伯們也能用聽的方式get到你此時正在三里屯撩妹的信息巴拉巴拉……但在毫無標簽的情況下識別也太那個了,是不是用了什么非常手段?是不是欺負咱們不懂科學?

當然!黑科技只能用黑科技的辦法解決。

實際牛掰的東東

雷鋒網(wǎng)先帶各位來回顧一下Facebook發(fā)布的這款黑科技————能對圖片上的內(nèi)容進行自動描述,從而讓盲人或視覺障礙患者“看到”圖片。該工具可對照片進行自動文本處理,從而讓用戶聽到照片上的內(nèi)容描述,如“有三個人,面帶微笑,站在戶外”等。

借助VPN翻墻到iPhone版Facebook后,發(fā)現(xiàn)iPhone自帶的voiceover功能對于本來有文字描述的東西都能讀出來,這跟Facebook本身圖片識別的功能牛不牛掰并無關(guān)系,真正牛掰的是它對沒有任何標簽圖片里物體的識別能力。

親測:讓盲人“看見”圖片  我們離這項黑科技有多遠

實際體驗的效果,雷鋒網(wǎng)按下Voiceover后暫時聽到還只是“two people in the story,actions is available” 這樣的效果,試了其它圖片(中國長城風景圖,非洲沙漠和人圖片,一堆人聚餐圖片),得到的反饋跟這個差別不大,目前還沒聽到特別連貫的描述。(莫非因為俺是翻墻用戶,所以體驗不純正?強烈期待中國版上線?。?/p>

但就Facebook自己允諾的目標——————能讓用戶聽到照片上的內(nèi)容描述,如“有三個人,面帶微笑,站在戶外”等。圖普科技海洋直言:這種難度蠻大的,主要在于準確率方面,對于單一標簽的圖片(僅識別人物或者物體)可以把識別準確率訓練得很高,但對于組合來說,很難保證超高的識別準去率。

跟ImageNet有關(guān)

2014年9月的時候Google的圖片識別技術(shù)還是遙遙領(lǐng)先的,當時媒體給的標題也是《技高一籌?最新的Google圖片識別技術(shù)能夠“認出”大部分物品

在那年的ImageNet圖像識別比賽里面,隸屬于Google的GoogLeNet團隊刷新了“分類和偵測”記錄,挑戰(zhàn)主要遵循三個步驟:分類、分類并鎖定以及偵測,當時其精度比前年的記錄提升了兩倍。當時從谷歌發(fā)布的照片中我們可以看出,目前這項技術(shù)可以識別出我們常見的物體,比如寵物貓、雞蛋、香蕉、橘子、電視機、顯示器、書架等。

親測:讓盲人“看見”圖片  我們離這項黑科技有多遠

然后到了2015年12月的時候,媒體給的標題是 《ImageNet圖像識別大賽 微軟打敗谷歌獲多項第一》,也就是說當年這個名譽易主給微軟了。

當時ImageNet圖像識別大賽要求選手所設(shè)計的圖像系統(tǒng)能準確定位來自Flickr和搜索引擎的10萬張圖片,并把圖片劃分入1000個物體分類中(狼蛛、iPod、清真寺、玩具店、調(diào)制解調(diào)器等),錯誤率越低越好。微軟參賽系統(tǒng)的分類錯誤率為3.5%,定位錯誤率為9%。在整個比賽中,微軟打敗谷歌獲多項第一。

親測:讓盲人“看見”圖片  我們離這項黑科技有多遠

可誰也沒有想到,使用了這項功能后讓大家覺得最“黑科技”的卻是坐擁14億個用戶社交圖片網(wǎng)站的Facebook。實話說,要比圖片庫Facebook不一定比Google多,但是用戶對單張圖片信息量的關(guān)注度,在Facebook上一定比Google強,就好比我們每天會去刷大量朋友圈看好友的點點滴滴,但不會沒事就往搜索引擎里傳圖片……而現(xiàn)在,盲人們也能天天刷Facebook“看”好友的點點滴滴,讓我們一下子就get到這個點的牛掰之處了。

實現(xiàn)路徑

體驗過一把FB后雷鋒網(wǎng)發(fā)現(xiàn),F(xiàn)acebook這個功能實際上是跟iPhone自帶的voiceover功能一起使用的,voiceover功能能辨別出所有的text文字然后念出來,所以它這項技術(shù)的核心實際上是對毫無標簽圖片的辨別能力。

對于毫無標簽圖片的鑒別能力,根據(jù)Facebook自己的解釋,主要通過3個路徑解決:

  1. 自動可替代文本。(以往,F(xiàn)acebook會統(tǒng)一把用戶上傳的圖片的可替代文本設(shè)置為“XXX的照片”,但現(xiàn)在它會基于人工智能,自動根據(jù)照片內(nèi)容進行替換,因此被稱為自動可替換文本。)

  2. 運用深度學習(圖片識別引擎的核心是一個包含數(shù)百萬個可學習的參數(shù)的深度卷積神經(jīng)網(wǎng)絡,F(xiàn)acebook的計算機視覺平臺能夠非常簡單地收集并分析上百萬張照片,并在監(jiān)督下學習進步。)

  3. 進一步組織語句。(在進行了多次實驗室研究后,他們決定把圖片中的內(nèi)容分為3個類別:人、物體和場景,在描述圖片時,也會按照這樣的次序。)

說起來很簡單,那它實現(xiàn)起來有多難?

曾在阿里負責圖像識別和搜索產(chǎn)品的趙京雷,現(xiàn)readface創(chuàng)始人表示:

從視覺識別的角度,深度學習出現(xiàn)以后,它的難點主要在大規(guī)??捎糜柧殧?shù)據(jù)和算法上。

從數(shù)據(jù)層面上來講,要“教會”計算機去識別、描述一個圖片的內(nèi)容,一方面要識別圖片中出現(xiàn)了什么樣的物品,另一方面要描述這些物品中的關(guān)聯(lián)。

比如對于‘一個人坐在湖邊釣魚’這樣的圖片,要描述出來,最基本的要識別出:人、湖和釣魚竿;識別出物品之后還要能夠確定三者之間的關(guān)系。

世界上形形色色的物品種類繁多,構(gòu)建可靠的標注數(shù)據(jù)集,使得針對每類物品都有足夠的標注樣本,去指導學習算法習得物品種類概念,本身工作量巨大。而同類的物品之間,又存在不同可能的關(guān)系。要對這些可能的關(guān)系,構(gòu)建足夠的樣本數(shù)據(jù),工作量會更大。

在計算機視覺的學術(shù)界,(我記得)斯坦福前些年推出“ImageNet”,人工對百萬圖片標注里面出現(xiàn)的物品種類,ImageNet在過去幾年推動了對照片中通用物品識別技術(shù)的發(fā)展。而為了進一步確定不同物品的關(guān)系,斯坦福去年推出新的數(shù)據(jù)集“Visual Genome ”,致力于在ImageNet的基礎(chǔ)上,刻畫出物品的關(guān)系。Genome數(shù)據(jù)集針對一副圖片,把結(jié)構(gòu)化的圖像概念和語言聯(lián)系起來。

從機器學習的角度出發(fā),這些人工標注的數(shù)據(jù)奠定了對圖片進行文本描述的基礎(chǔ)。當然,在這個基礎(chǔ)之上,怎樣實現(xiàn)更加精準的識別,就取決于底層的很多算法和數(shù)據(jù)處理手段了。如果想做到工業(yè)級應用,針對大規(guī)模通用物品的識別,算法的精度和效率等很多方面都是非常具有挑戰(zhàn)的。

這次Facebook推出的產(chǎn)品,(我推測)在很大程度上可能使用了自己的類似“Genome”的數(shù)據(jù)庫,然后利用機器學習技術(shù)習得圖片中的物品與其可能的關(guān)系。

隨后,雷鋒網(wǎng)將這張圖片(來源于雷鋒網(wǎng)對電影的手動截圖,都是第一次,沒有標注相關(guān)標簽上傳到 Facebook賬號和百度圖片平臺上的)傳到百度圖片的檢測庫,暫時給出的“暫無猜詞”,只是給出了相似圖片推薦。

親測:讓盲人“看見”圖片  我們離這項黑科技有多遠


而當雷鋒網(wǎng)把這張圖片上傳到搜狗圖片的檢測庫,顯示的是“婚禮,女孩”,然后給出了相似圖片推薦,

親測:讓盲人“看見”圖片  我們離這項黑科技有多遠

雖然不一定能說明決定性的問題,但從這兩個國內(nèi)國內(nèi)平臺對圖片的小測試看,要說出在哪個場景,有什么物體和人一定關(guān)系的語句,就目前的圖片識別技術(shù)還是挺有難度的。

國內(nèi)能不能來一發(fā)

圖普科技的海洋告訴雷鋒網(wǎng),目前這個難度蠻大的。

主要是準確率方面。對于單一標簽的圖片(僅識別人物或者僅識別物體)可以把識別準確率訓練得很高,對于這種組合起來的,很難保證識別準確的。


我們自己就有個通用物體識別的接口,可以識別超過兩萬種物體。但是你會發(fā)現(xiàn)我們識別出來以后一般都會按照相關(guān)度給幾個建議的。相關(guān)度越高機器越確定。


我們本身也有場景識別和人物類別識別,單一的接口識別準確率都很高。組合起來就可以進行簡單語義分析了,比如在教室里有三個年輕女人……但是再加上物體,加上動作去分析那個人在干嘛,這個挺難的。比如超市前站著一個老年人在吃面包,這個目前很難描述出來啊。我也感興趣臉書是怎樣做的,到了什么程度……

對于Facebook宣稱的可以對特定種類物體目前做到較高的識別率,商湯科技的楊帆則告訴雷鋒網(wǎng),如果除掉voiceover這個向蘋果“借用”的功能,F(xiàn)acebook這次黑科技的核心只是對沒有任何標簽的圖片里物體進行識別

那這是屬于一般性物體檢測,主要依靠高維信息特征識別,國際權(quán)威競賽Imagenet中有幾項分競賽就是比這個,但Facebook這項黑科技那么多人關(guān)注,可綜合識別率并不是很高,但可能某些類可以做的比較高而已。

那么說在國內(nèi)也能實現(xiàn)?

(理論上可以)但不付出時間,沒有那么簡單。

對于這一點,F(xiàn)acebook也沒有跟我們裝逼,F(xiàn)acebook自己也承認為了保證可靠,F(xiàn)acebook還是花了10個月的時間,經(jīng)過反復測試,才上線了自動可替換文本功能。目前,F(xiàn)acebook的識別引擎能保證至少80%的準確率?!?/span>

意義遠不止于盲人

按上面的邏輯,如果國內(nèi)公司想做的話,同樣花上個10個月再加上深度學習的助力,應該也能做成,畢竟大家都是有點底子的。比如悄悄一查,你會發(fā)現(xiàn)百度圖片,搜狗圖片都有類似的圖片識別的功能,一些非搜索引擎公司的第三方團隊也有類似的圖片識別功能,包括sensetime,image++,美圖,騰訊優(yōu)圖等。

但有個問題,  這項技術(shù)的意義遠不在于幫盲人看見圖片。

一個很簡單的邏輯,我們身邊的盲人很少有會用手機上網(wǎng)的,會用手機上微信的就更少了,F(xiàn)acebook這次用幫忙人看見點來宣傳黑科技,只是讓讀者一目了然地感受到這個技術(shù)牛掰的精髓,若放到實際應用中,搜索引擎用它來識別小黃圖的上傳,社交網(wǎng)站用它來識別罪犯的蹤跡,好友的生活足跡,進一步去推斷出一些蛛絲馬跡的東西,比幫盲人“看見”的作用要更廣泛和厲害。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

專注AIR(人工智能+機器人)

專注人工智能+機器人報道,經(jīng)驗分享請加微信keatslee8(請注明原因)。 科學的本質(zhì)是:問一個不恰當?shù)膯栴},于是走上了通往恰當答案的路。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說