計(jì)算機(jī)圖像識(shí)別技術(shù)的潛在用途

本文作者：王強(qiáng)

2015-02-20 10:08

導(dǎo)語：最近幾天微軟亞洲研究院的最新論文就將這一紀(jì)錄又帶到了新的高度。這一次的突破還有里程碑的意義：在測(cè)試中，計(jì)算機(jī)系統(tǒng)的圖像識(shí)別錯(cuò)誤率不到5%，低于人類的5.1%水平，這是計(jì)算機(jī)首次在該測(cè)試中表現(xiàn)超越人類。

僅僅一個(gè)月前百度才宣布刷新了ImageNet圖像分類識(shí)別測(cè)試的機(jī)器成績(jī)，最近幾天微軟亞洲研究院的最新論文就將這一紀(jì)錄又帶到了新的高度。這一次的突破還有里程碑的意義：在測(cè)試中，計(jì)算機(jī)系統(tǒng)的圖像識(shí)別錯(cuò)誤率不到5%，低于人類的5.1%水平，這是計(jì)算機(jī)首次在該測(cè)試中表現(xiàn)超越人類。

當(dāng)然，此次突破并不意味著我們的電腦可以輕易分辨出照片上的笨狗與懶貓；很多領(lǐng)域中人類仍然對(duì)計(jì)算機(jī)擁有很大優(yōu)勢(shì)，例如區(qū)別不同種類的對(duì)象。但在相同種類、整體相似細(xì)節(jié)有差異的對(duì)象識(shí)別任務(wù)中計(jì)算機(jī)可能會(huì)有更佳表現(xiàn)。此外，隨著研究深入、運(yùn)算速度提升，將來有一天電腦會(huì)有能力做到全面接近乃至超越人類的圖像識(shí)別速度及準(zhǔn)確度。

百度曾為自己的手機(jī)詞典上線了一個(gè)功能，就是拍攝任意照片，用戶可以勾選照片中的物體讓機(jī)器自動(dòng)識(shí)別物體名稱。功能上線后因?yàn)闇?zhǔn)確率極低，迅速被網(wǎng)友當(dāng)成惡搞工具：什么把礦泉水認(rèn)成伏特加，把手指當(dāng)作腳趾，模型說成小動(dòng)物……由于技術(shù)不成熟，這項(xiàng)功能現(xiàn)在并沒有什么實(shí)用性。但當(dāng)電腦的圖像識(shí)別能力達(dá)到人類水平后，圖像識(shí)別能大顯身手的場(chǎng)合將遠(yuǎn)不止于這類娛樂化的應(yīng)用。

最直接受益于圖像識(shí)別技術(shù)進(jìn)步的應(yīng)用是搜索引擎?；ヂ?lián)網(wǎng)上存在難以計(jì)數(shù)的龐大圖像資源，而幾乎所有圖片都沒有合適的標(biāo)簽注釋。使用者想要搜索諸如“包含藍(lán)天白云的照片”、“桌椅的照片”時(shí)，搜索引擎只能根據(jù)輸入的關(guān)鍵字與圖片來源的注釋比對(duì)，結(jié)果只能找到數(shù)量較少的資源。而圖像識(shí)別技術(shù)完善后，引擎就能夠自動(dòng)識(shí)別出每張圖片中的物體并為其加注標(biāo)簽，用戶搜索時(shí)的精度、自由度就會(huì)成倍提升：未來我們甚至可以輸入指令要求系統(tǒng)找出“有一只吉娃娃狗和一輛寶馬汽車”的圖片來，完全不受圖片上傳者自己添加的標(biāo)簽約束。這種進(jìn)步會(huì)大大方便廣告、電視、傳媒行業(yè)及科研領(lǐng)域的相關(guān)工作。

另一大將受益于圖像識(shí)別技術(shù)的產(chǎn)業(yè)是無人駕駛交通工具，包括無人機(jī)和無人駕駛汽車。現(xiàn)有的自動(dòng)駕駛技術(shù)對(duì)周圍環(huán)境的識(shí)別僅限于物體輪廓，難以對(duì)不同種類的對(duì)象做準(zhǔn)確分類。例如無人駕駛汽車就很難區(qū)別前方的騎車人究竟騎的是自行車還是摩托車，或者旁邊道路上的白色物體是一個(gè)包裝袋還是一只小貓。人類駕駛員會(huì)根據(jù)周圍環(huán)境中不同的事物的行為特征來評(píng)估潛在的風(fēng)險(xiǎn)，并決定究竟是該小心前進(jìn)還是一腳油門絕塵而去。如果電腦也能分辨出環(huán)境中的對(duì)象種類，就能像人類一樣輕松應(yīng)對(duì)復(fù)雜的情況：發(fā)現(xiàn)前方有只小狗在過馬路，汽車當(dāng)然要減速讓行；可如果是一張報(bào)紙被風(fēng)刮到路中間就毫無避讓的理由了。即使對(duì)必需由人遙控的無人機(jī)來說圖像識(shí)別技術(shù)也是非常重要的：地面上的操縱者不容易迅速觀察無人機(jī)周圍的所有角度，死角的部分就需要電腦輔助監(jiān)視。后方有物體飄近時(shí)，系統(tǒng)要判斷那是懂得自己回避的鳥類還是容易纏住旋翼的塑料垃圾，據(jù)此決定是否采取規(guī)避動(dòng)作。當(dāng)無人機(jī)需要執(zhí)行監(jiān)控、尋物等任務(wù)時(shí)，計(jì)算機(jī)更是要負(fù)起重任。

更加激動(dòng)人心的未來則是先進(jìn)圖像識(shí)別技術(shù)與虛擬現(xiàn)實(shí)系統(tǒng)的結(jié)合：用戶戴著類似HoloLens這樣的眼鏡觀察四周，眼鏡能夠自動(dòng)將視野內(nèi)的物體一一分類，并自動(dòng)根據(jù)使用者與周圍環(huán)境的互動(dòng)來判斷其意圖。拿起一顆螺母，眼鏡自動(dòng)識(shí)別出螺母尺寸，然后在旁邊的一堆散落的螺絲中標(biāo)注出尺寸合適的；坐在沙發(fā)上拿起游戲手柄，系統(tǒng)就立刻命令游戲機(jī)和電視準(zhǔn)備就緒；從冰箱取出一盒牛奶，語音助手就發(fā)出建議說現(xiàn)在天氣寒冷，牛奶應(yīng)該熱過再喝……包括智能家電也會(huì)受益于圖像識(shí)別：洗衣機(jī)會(huì)在你扔進(jìn)去一大團(tuán)衣物時(shí)發(fā)出提醒，建議你把毛衫和牛仔褲分開洗滌；微波爐會(huì)注意到你使用的容器不適合加熱，應(yīng)該更換；淋浴花灑會(huì)記住男女主人習(xí)慣的水溫并自動(dòng)調(diào)節(jié)，等等。計(jì)算機(jī)能夠像人類一樣辨別周圍環(huán)境時(shí)，離“人工智能”就近了一大步，也會(huì)讓我們的生活得到許多便利。

圖像識(shí)別將是未來科技領(lǐng)域幾大關(guān)鍵產(chǎn)業(yè)的核心技術(shù)之一。微軟、谷歌、Facebook、亞馬遜、百度、騰訊等巨頭都在傾注大量資源推動(dòng)這項(xiàng)功能進(jìn)步。最近的突破證實(shí)計(jì)算機(jī)完全有潛力在圖像識(shí)別領(lǐng)域追上乃至超越人類，也讓從業(yè)者的信心更加充實(shí)。隨著時(shí)間推移我們會(huì)發(fā)現(xiàn)自己身邊的計(jì)算設(shè)備越來越“聰明”，而“智能設(shè)備”這個(gè)詞匯也將真正名副其實(shí)。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

4人收藏

相關(guān)文章

王強(qiáng)

專欄作者

關(guān)注技術(shù)，分析市場(chǎng)，展望未來

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章