0
| 本文作者: 楊文 | 2018-01-31 16:52 |
雷鋒網(wǎng)AI研習(xí)社按:計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),掌握解決具體計(jì)算機(jī)視覺任務(wù)的方法則會(huì)幫助我們解決大規(guī)模系統(tǒng)的復(fù)雜問題,其應(yīng)用相當(dāng)廣泛,最常見的如人臉識(shí)別,文字識(shí)別等等。這篇文章就來為大家從頭普及一下計(jì)算機(jī)視覺相關(guān)知識(shí),包括計(jì)算機(jī)視覺的定義、研究方法和應(yīng)用舉例,還會(huì)重點(diǎn)介紹深度學(xué)習(xí)歷史發(fā)展歷史,常見深度學(xué)習(xí)網(wǎng)絡(luò)介紹和開發(fā)平臺(tái),幫助計(jì)算機(jī)視覺入門者和從業(yè)者進(jìn)行有效的基礎(chǔ)夯實(shí)和系統(tǒng)梳理。
近日,在雷鋒網(wǎng)AI研習(xí)社舉辦的線上直播課上,來自上海交通大學(xué)的盧憲凱博士為大家分享了計(jì)算機(jī)視覺領(lǐng)域的入門知識(shí)。這也是盧博士CV系列課線上直播的第一期,后期會(huì)陸續(xù)由淺入深,為關(guān)注AI研習(xí)社的小伙伴持們續(xù)產(chǎn)出干貨,歡迎訂閱盧憲凱博士的免費(fèi)直播課。
盧憲凱,上海交通大學(xué)博士,主要研究方向是目標(biāo)跟蹤與深度學(xué)習(xí)。在多個(gè)計(jì)算機(jī)視覺期刊會(huì)議上發(fā)表多篇學(xué)術(shù)論文,包括IEEE Transaction on Multimedia、MTA、Neurocomputing、ICASSP。
分享內(nèi)容
計(jì)算機(jī)視覺定義和研究方法
計(jì)算機(jī)視覺的應(yīng)用舉例:圖像分類,人臉識(shí)別;車輛檢測(cè),行人檢測(cè);語義分割,實(shí)例分割;目標(biāo)跟蹤,視頻分割;圖像生成,視頻生成
深度學(xué)習(xí)歷史回顧
常見深度學(xué)習(xí)網(wǎng)絡(luò)介紹和開發(fā)平臺(tái)
計(jì)算機(jī)視覺概述和深度學(xué)習(xí)簡(jiǎn)介

計(jì)算機(jī)視覺是指從圖像和視頻中提出數(shù)值或符合信息的計(jì)算系統(tǒng)。更形象一點(diǎn)講就是說,計(jì)算機(jī)視覺是讓計(jì)算機(jī)具備像人類一樣的眼睛,看到圖像,并理解圖像。

人類的視覺首先是通過眼睛看到一幅圖片,大腦來理解這個(gè)圖片。對(duì)于計(jì)算機(jī)來說,就會(huì)通過攝像頭或攝像機(jī)獲取這張圖片,然后利用計(jì)算機(jī)算法來看圖片,讀取信息。
計(jì)算機(jī)視覺最核心部分就是理解。第一步是提供數(shù)據(jù),包括靜態(tài)圖片,視頻。第二步是設(shè)計(jì)算法,讓計(jì)算機(jī)像人的大腦一樣理解數(shù)據(jù),這個(gè)過程需要機(jī)器學(xué)習(xí)和算法,或者現(xiàn)在比較火的神經(jīng)網(wǎng)路深度學(xué)習(xí)的方法。計(jì)算機(jī)視覺歸根結(jié)底就是做一個(gè)回歸或者分類的問題。后面講到的大部分關(guān)于計(jì)算機(jī)視覺的任務(wù)都可以用回歸或分類的問題對(duì)它建模。

計(jì)算機(jī)視覺非常重要的應(yīng)用之一就是圖像分類。李飛飛創(chuàng)建的ImageNet數(shù)據(jù)集極大推動(dòng)了計(jì)算機(jī)視覺的發(fā)展,也讓大家更理解了計(jì)算機(jī)視覺對(duì)大家的生活是起著非常重要的作用。
除了圖像識(shí)別任務(wù)外,還有特定目標(biāo)的識(shí)別,比如車牌識(shí)別,人臉識(shí)別,還有比較精細(xì)的識(shí)別,年齡,性別,是否戴眼鏡,表情的識(shí)別,判斷一個(gè)人是否笑了。

計(jì)算機(jī)視覺里的第二個(gè)任務(wù)——目標(biāo)檢測(cè)。目標(biāo)檢測(cè)是在給定一個(gè)圖像,把我感興趣的前景目標(biāo)檢測(cè)出來,并添加類別。目標(biāo)檢測(cè)是頭像識(shí)別的進(jìn)一步發(fā)展。目標(biāo)檢測(cè)要知道圖片中有哪些類別,還有知道他們的位置。

行人檢測(cè)和車輛檢測(cè)。對(duì)人群密集處的檢測(cè),對(duì)將來可能發(fā)生的異常事件起到預(yù)警作用。右邊的車輛檢測(cè),可以統(tǒng)計(jì)車輛個(gè)數(shù),實(shí)時(shí)估計(jì)車流密度,這樣的話對(duì)于疏解城市交通是非常有幫助的。這兩個(gè)是做目標(biāo)檢測(cè)中的兩個(gè)細(xì)化應(yīng)用。
計(jì)算機(jī)視覺的第三個(gè)任務(wù)分割。分割包括兩種,圖像語義分割和個(gè)體分割。圖像語義分割是指給你一個(gè)張圖片,把圖中的物體分割開來。個(gè)體分割比語義分割更難,相當(dāng)于在檢測(cè)任務(wù)上加上了分割。

視覺目標(biāo)跟蹤,也有很多廣泛應(yīng)用。如果拓展到多目標(biāo)跟蹤,可應(yīng)用在候機(jī)大廳或商場(chǎng)里面,對(duì)每個(gè)人實(shí)時(shí)跟蹤,建立每一個(gè)人的軌跡,比如某人突然和另一個(gè)人有了交互,就可判斷是否在打架。
還可應(yīng)用在自動(dòng)駕駛上面,比如前置攝像頭拍到前面的幾輛車,實(shí)時(shí)跟蹤,并計(jì)算出當(dāng)前車與前車的距離。 
視頻分割,前置攝像頭拍出街景照片,可用于無人駕駛。
視頻生成,有了當(dāng)前幀可以預(yù)測(cè)下一幀,再結(jié)合攝像頭得到下一幀的樣子??梢詼p少計(jì)算資源消耗。
深度學(xué)習(xí)簡(jiǎn)介

這幾年計(jì)算機(jī)視覺已經(jīng)和深度學(xué)習(xí)變得密不可分。計(jì)算機(jī)視覺研究已經(jīng)有很多有趣應(yīng)用,比如圖像風(fēng)格遷移。

生成對(duì)抗網(wǎng)絡(luò)(GAN)的有趣應(yīng)用,比如可以將女性臉龐逐漸演化為男性臉龐。

直播換臉的應(yīng)用

深度學(xué)習(xí)在人臉識(shí)別的應(yīng)用。目前利用深度學(xué)習(xí)在LFW數(shù)據(jù)庫訓(xùn)練人臉識(shí)別,錯(cuò)誤率5%下降到0.5%
后期的課程會(huì)詳細(xì)介紹這幾個(gè)網(wǎng)絡(luò)VGGNet, GoogLeNet ,ResNet ,DenseNet。

常見的深度學(xué)習(xí)開發(fā)平臺(tái)

以上是計(jì)算機(jī)視覺系統(tǒng)課程的第一課,簡(jiǎn)單介紹了一下計(jì)算機(jī)視覺的圖像識(shí)別,目標(biāo)檢測(cè),圖像和視頻分割,目標(biāo)追蹤,圖像和視頻生成的一些常見應(yīng)用,接下來盧憲凱博士還會(huì)結(jié)合深度學(xué)習(xí)講解實(shí)現(xiàn)這些任務(wù)需要的算法,模型以及實(shí)戰(zhàn)應(yīng)用。下一次直播課程是深度卷積網(wǎng)絡(luò)的原理及模型介紹,以及如何搭建和訓(xùn)練一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)。
雷鋒網(wǎng)提示:如想在第一時(shí)間獲取課程直播預(yù)告時(shí)間,請(qǐng)關(guān)注微信公眾號(hào):AI研習(xí)社。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。