算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

本文作者： AI慕課學(xué)院

2017-12-08 16:49

導(dǎo)語(yǔ)：計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué)，其應(yīng)用相當(dāng)廣泛，包括并不限于：圖像分類，人臉識(shí)別；車輛檢測(cè)，行人檢測(cè)；語(yǔ)義分割，實(shí)例分割；目標(biāo)跟蹤，視頻分割；

【雷鋒網(wǎng)】AI慕課學(xué)院按：計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué)，掌握解決具體計(jì)算機(jī)視覺任務(wù)的方法則會(huì)幫助我們解決大規(guī)模系統(tǒng)的復(fù)雜問題，其應(yīng)用相當(dāng)廣泛，包括并不限于：圖像分類，人臉識(shí)別；車輛檢測(cè)，行人檢測(cè)；語(yǔ)義分割，實(shí)例分割；目標(biāo)跟蹤，視頻分割；圖像生成，視頻生成。

為了讓大家更好的理解計(jì)算機(jī)視覺在人工智能領(lǐng)域的強(qiáng)大應(yīng)用，12月7日晚，上海交通大學(xué)盧憲凱博士受【雷鋒網(wǎng)】AI慕課學(xué)院邀請(qǐng)，開展了一場(chǎng)主題為《計(jì)算機(jī)視覺概述和深度學(xué)習(xí)簡(jiǎn)介》的公開課，盧博士在公開課中給大家介紹了計(jì)算機(jī)視覺的定義、研究方法和應(yīng)用舉例，重點(diǎn)介紹深度學(xué)習(xí)發(fā)展歷史，常見深度學(xué)習(xí)網(wǎng)絡(luò)介紹和開發(fā)平臺(tái)，幫助計(jì)算機(jī)視覺入門者和從業(yè)者進(jìn)行有效的基礎(chǔ)夯實(shí)和系統(tǒng)梳理。

今天，小編就來帶大家一起來回顧本節(jié)課程中盧博士的精彩分享內(nèi)容。

計(jì)算機(jī)視覺定義

首先先講一下計(jì)算機(jī)視覺的定義，計(jì)算機(jī)視覺指的是從圖像和視頻中提出數(shù)值或符號(hào)信息的一個(gè)計(jì)算。形象點(diǎn)說的話就是計(jì)算機(jī)視覺是讓計(jì)算機(jī)具備像人一樣的眼睛去看到圖像，并且理解圖像。

在這里舉了一個(gè)特別簡(jiǎn)單的例子，就是微軟亞洲研究院之前開發(fā)了一個(gè)系統(tǒng)叫how-old.net，當(dāng)你在這個(gè)系統(tǒng)輸入一張圖片進(jìn)去，一個(gè)成年人一個(gè)小孩的圖片都可以，它就會(huì)給你檢測(cè)出這個(gè)人的性別以及年齡，像左邊這個(gè)圖，輸入的是林志穎和郭德綱的，我們看到它的結(jié)果還是比較可靠的，雖然因?yàn)榱种痉f比較特殊（這個(gè)大家都知道的）。

再看右邊這張圖，其實(shí)就是蠻準(zhǔn)的，它首先檢測(cè)到了有兩個(gè)人臉，一個(gè)小女孩的，一個(gè)baby的臉，它首先判斷出他們的性別，還把他們的年齡判斷出來，還是挺準(zhǔn)的。所以舉例子就是想說計(jì)算機(jī)視覺它和人理解外面的世界是有點(diǎn)像的，就是要看到圖像，而且能夠理解它。

從獲取圖像到讀懂圖像

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

從人類的視覺來看的話，我們看到一幅圖片，首先是經(jīng)過眼睛來看到圖片，然后經(jīng)過大腦來理解圖片，比如說看到左邊這個(gè)圖像的話，大腦中會(huì)出現(xiàn)它的一個(gè)解釋：這可能是一個(gè)花園，可能是春天的花園，里面有橋有水有樹，有花，是一個(gè)綠色的背景等等。

對(duì)于計(jì)算機(jī)來說，它首先會(huì)通過一個(gè)相機(jī)或者一個(gè)攝像頭，獲取這張圖片，會(huì)用計(jì)算機(jī)它自己的一些算法來看圖片，并用預(yù)算法來理解，它也想能夠從圖片中讀出：這是一個(gè)花園，這是一個(gè)春天這些有橋有水之類的信息。

計(jì)算機(jī)視覺就是最核心的這一步就是要理解它，理解的過程就是：

第一步先提供給它數(shù)據(jù)，數(shù)據(jù)的話其實(shí)有靜態(tài)的圖片，也有一些視頻。

第二步就是要設(shè)計(jì)算法，靠人的大腦那樣去理解它，過程中需要機(jī)器學(xué)習(xí)的算法，或者是最近非常熱的深度學(xué)習(xí)的方法。

計(jì)算機(jī)視覺歸根結(jié)底的話，其實(shí)就是在做一個(gè)回歸或者分類的問題，所以后面講到的大部分的關(guān)于計(jì)算機(jī)視覺的任務(wù)，都可以用一個(gè)回歸或者一個(gè)分類的問題來對(duì)它進(jìn)行建模。這就是關(guān)于計(jì)算機(jī)視覺的一個(gè)核心的定義。

計(jì)算機(jī)視覺的重要性

計(jì)算機(jī)視覺其實(shí)無論是在學(xué)術(shù)界還是在日常生活中，抑或在工業(yè)界都已經(jīng)有了非常非常多的關(guān)注，大家都在研究、應(yīng)用。

因?yàn)檫@節(jié)公開課只是第一節(jié)課，所以給大家是從一個(gè)更廣泛的一個(gè)面上來講，它在日常生活中的一些應(yīng)用，包括在學(xué)術(shù)上的一些研究。

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

第一個(gè)計(jì)算機(jī)視覺非常重要的應(yīng)用就是圖像識(shí)別或者叫圖像分類。大家知道最近谷歌有一個(gè)學(xué)術(shù)的大牛加入，就是李飛飛教授，李飛飛教授他們組織了一個(gè)叫IM GENET的分類比賽，比賽已經(jīng)持續(xù)了很多年，主要是要求進(jìn)行一千多類的生活中常見目標(biāo)的分類，包括人、背包、交通信號(hào)燈、游泳、動(dòng)物、火柴、打網(wǎng)球等等。

比賽就是要設(shè)計(jì)一種計(jì)算機(jī)視覺的算法，能夠不斷的提升在IM GENET數(shù)據(jù)集上分類的精度。當(dāng)然大家后來也看到一些新聞，是說現(xiàn)在基于深度學(xué)習(xí)的方法，在數(shù)據(jù)集上其實(shí)已經(jīng)能夠超越人類了。所以數(shù)據(jù)集是非常有意義的，它推動(dòng)了計(jì)算機(jī)視覺的發(fā)展，也讓大家更理解到了計(jì)算機(jī)視覺識(shí)別其實(shí)對(duì)我們生活將是非常重要的一個(gè)改變。

圖像識(shí)別是計(jì)算機(jī)視覺里面的基石。在后續(xù)的課程中也會(huì)著重的講一下圖像識(shí)別：到底計(jì)算機(jī)是怎么能夠區(qū)分人、書包、交通信號(hào)燈這些信息，是怎么判斷出人在游泳之類的東西。

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

除了圖像識(shí)別任務(wù)的話，計(jì)算機(jī)視覺里面還有一個(gè)是任務(wù)就是精細(xì)的識(shí)別，就是說除了廣義上常見的識(shí)別書包或者海報(bào)、建筑這種，其實(shí)在工業(yè)界的應(yīng)用就是特定目標(biāo)的識(shí)別，比如說車牌的識(shí)別，其實(shí)就已經(jīng)被應(yīng)用起來了，就是在高速公路上過ETC的車道的話，你不需要經(jīng)過個(gè)人工收費(fèi)口，它就會(huì)拍你的車牌，把你的車牌的信息識(shí)別出來，就對(duì)應(yīng)著它的收費(fèi)情況。

還有一個(gè)就是個(gè)人臉識(shí)別，包括之前支付寶的人臉支付等等應(yīng)用也說明了，其實(shí)計(jì)算機(jī)視覺已經(jīng)非常廣泛的應(yīng)用到了日常的生活中，像右邊圖的話就非常有意思，它屬于人臉識(shí)別精細(xì)的一種識(shí)別，就是它不僅要識(shí)別出它的屬性，比如說人的年齡大約是多少？

像奧巴馬這張圖的話，它就是不僅要識(shí)別出它是奧巴馬本人，它要知道奧巴馬的年齡，它的性別，它有沒有戴眼鏡，它的嘴唇是什么樣的，還有表情的識(shí)別，就是它的情緒是什么樣的，因?yàn)楸砬樽R(shí)別也是一個(gè)非常關(guān)鍵的，對(duì)于這種文化體育類娛樂休閑產(chǎn)品來說，能夠更好地識(shí)別交互，特別是人機(jī)交互過程中的話，人的表情是非常重要的，最后的三個(gè)參數(shù)就是表示要對(duì)它進(jìn)行一定的校正的話，需要的參數(shù)。

通過這兩個(gè)例子也說明就是說計(jì)算機(jī)視覺里面的第一個(gè)就是圖像識(shí)別這塊的話，現(xiàn)在已經(jīng)大家都在向更專業(yè)的方向在做，而且它已經(jīng)廣泛的運(yùn)用到了生活中的方方面面。

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

講完第一個(gè)任務(wù)之后，在講計(jì)算機(jī)視覺里面的第二個(gè)任務(wù)就是目標(biāo)檢測(cè)，目標(biāo)檢測(cè)是一個(gè)非常非常有趣的一個(gè)工作，特別對(duì)于學(xué)術(shù)界來說是一個(gè)非常非常有趣的一個(gè)方向，因?yàn)樗且粋€(gè)非常有用，但是又比較難做的事情。

目標(biāo)檢測(cè)任務(wù)的話，簡(jiǎn)單來說就是給定左邊這樣一幅圖像，需要把感興趣的前景目標(biāo)（所謂的前景目標(biāo)就是除了對(duì)信息沒有特別幫助的一些，剩下的都作為前景，比如說在這幅圖里面的話，有兩只狗，有棵圣誕樹等等）。

目標(biāo)檢測(cè)本質(zhì)上是在做這樣一件事情：就是要把所有的感興趣的前景目標(biāo)給它檢測(cè)出來，把它的類別貼上標(biāo)簽，就是像右邊圖就表示做了一次檢測(cè)之后的結(jié)果,會(huì)檢測(cè)到兩只狗一只貓，并打上標(biāo)簽，標(biāo)明有兩個(gè)狗，有一個(gè)貓。

目標(biāo)檢測(cè)的話，它其實(shí)是對(duì)剛才講的圖像識(shí)別的一個(gè)進(jìn)一步的發(fā)展，要知道圖片里面有哪些類別，還要知道它的位置，所以它做的是兩個(gè)任務(wù)，相當(dāng)于既要把目標(biāo)找到，還要把類別給識(shí)別出來，目標(biāo)檢測(cè)雖然難，但是它的功能強(qiáng)大了非常多。

舉一個(gè)例子現(xiàn)在在安防領(lǐng)域還有城市市政這塊非常有用的例子，就是行人檢測(cè)與車輛檢測(cè)，比如說在一個(gè)智能攝像頭的終端，需要把攝像頭里面看到的所有的行人給它檢測(cè)出來，檢測(cè)出來有什么用？

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

如果這里面的行人的人流非常大的話，就可以迅速的把攝像頭里面的人群給它估計(jì)出來，對(duì)于將來可能發(fā)生一定的異常事件的話是起到一個(gè)預(yù)警作用。

右邊的圖也非常簡(jiǎn)單，就是說如果能及時(shí)的把道路里面的車輛的給檢測(cè)出來，就可以統(tǒng)計(jì)它的個(gè)數(shù)，就可以實(shí)時(shí)地估計(jì)出它的車流密度，這樣的話對(duì)于疏解城市的交通也是非常有幫助的。

像上面兩個(gè)例子都只是在目標(biāo)檢測(cè)里面兩個(gè)非常細(xì)化的子任務(wù)，而且也已經(jīng)在整個(gè)的日常生活中得到了應(yīng)用，都已經(jīng)默默的在為生活的方便提供幫助。

再講的就是第三個(gè)任務(wù)就是分割。分割是計(jì)算機(jī)視覺里面也是一個(gè)非常難的任務(wù)，分兩種分割，一種是圖像的語(yǔ)義分割，一種是個(gè)體的分割。

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

像左邊圖講的就是圖像的語(yǔ)義分割，語(yǔ)義分割做的事情就是給了你一張圖片之后，想把整個(gè)圖片割成一塊一塊獨(dú)立的個(gè)體，像這個(gè)圖片里面貓是一個(gè)前景，它踩在了一個(gè)草地上，背景里面是有藍(lán)天還有樹木，所以就想把它們整體的分割出來，像第二個(gè)圖里面是有牛在草地上，背景有天空也有樹木，所以就需要把構(gòu)成圖的不同的類別給它更精細(xì)地分別出來。

因?yàn)槠鋵?shí)人很多時(shí)候比如說要解釋圖的話，到哪個(gè)地方是前景，哪些地方是背景，還要知道目標(biāo)是什么？這就是語(yǔ)義分割要做的一件事情。

還有一種比語(yǔ)義分割更難一點(diǎn)的一種任務(wù)，現(xiàn)在也開始非常受到關(guān)注，就是個(gè)體的分割，它比語(yǔ)義分割要更難一點(diǎn)，其實(shí)就相當(dāng)于在檢測(cè)任務(wù)上加上了分割，就是說不僅要把所有的目標(biāo)給它分出來，比如這里不僅要把狗給分出來，還要區(qū)分某個(gè)狗在哪個(gè)位置，就是把它的位置信息給它標(biāo)定出來。

因此，計(jì)算機(jī)視覺剛才介紹的這三個(gè)任務(wù)識(shí)別檢測(cè)和分割，它們是一點(diǎn)一點(diǎn)在增加難度。就相當(dāng)于視覺識(shí)別是基礎(chǔ)中的基礎(chǔ)，檢測(cè)是識(shí)別加定位，個(gè)體分割的話就是檢測(cè)加分割，其實(shí)這樣做的目的就是由易到難，逐漸的去靠近人在理解圖像的過程中的能力。

對(duì)人類來說可能是很容易的一件事情，但是對(duì)計(jì)算機(jī)視覺來說，由于給它看到的就只是一些像素，如何能夠讓它去理解，這個(gè)過程就像可能教嬰兒去學(xué)習(xí)一樣，肯定是一個(gè)由簡(jiǎn)到難的一個(gè)過程。因此像個(gè)體分割任務(wù)的話，也是這幾年隨著微軟亞洲研究院、Facebook等在這方面做了出色的工作，才得到了廣泛的關(guān)注。

講完了計(jì)算機(jī)視覺里面的三大基本任務(wù)之后，其實(shí)計(jì)算機(jī)視覺還取得了許多非常有用的一些任務(wù)，這些任務(wù)的話也有非常廣泛的應(yīng)用，其中一個(gè)就是視覺目標(biāo)跟蹤。

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

視覺目標(biāo)跟蹤可以這樣描述：就是給你一段視頻，這段視頻往往就是一個(gè)相機(jī)或者是攝像頭拍攝的一段視頻，視頻它會(huì)第一幀告訴你，你感興趣的目標(biāo)是什么，然后我就只提供圖中這樣一些信息，需要實(shí)時(shí)的在此后的把感興趣的目標(biāo)位置給找出來。

這樣一個(gè)任務(wù)的話就是一個(gè)非常有用的，比如說擴(kuò)展到多目標(biāo)跟蹤里面，這是一個(gè)候機(jī)大廳或者一個(gè)商場(chǎng)里面，把每一個(gè)人都實(shí)時(shí)的跟蹤上，這樣會(huì)建立每一個(gè)人的軌跡，同時(shí)就可以對(duì)一些異常行為進(jìn)行檢測(cè)，比如說某個(gè)人突然和另一個(gè)發(fā)生了這種交互或者其他，那就可能認(rèn)為它們兩個(gè)人有可能在打架或者是故意丟棄一個(gè)包之類的。這些任務(wù)的話，就可以通過給視覺目標(biāo)跟蹤來對(duì)它進(jìn)行建模。

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域

另外一方面就是對(duì)于車輛的跟蹤，因?yàn)橄裼疫厛D講的就是有一輛無人駕駛的車輛，它里面有一個(gè)前置攝像頭，需要拍到前面的幾輛車，把它實(shí)時(shí)的跟蹤住，并且計(jì)算出當(dāng)前車與前車之間的距離，這也是視覺目標(biāo)跟蹤的一個(gè)應(yīng)用。

另外還有一個(gè)demo給大家看看，就是關(guān)于用深度學(xué)習(xí)來做目標(biāo)跟蹤的一個(gè)例子。小編在這里就直接奉上此次公開課視頻：計(jì)算機(jī)視覺概述和深度學(xué)習(xí)簡(jiǎn)介（單擊此段紅字）

看完盧博士的公開課，干貨滿滿，小編光是筆記就做了好幾頁(yè)，更是按耐不住想要加入盧博士的計(jì)算機(jī)視覺學(xué)習(xí)大軍了??！在這里也給大家預(yù)告一波：

為幫助對(duì)計(jì)算機(jī)視覺領(lǐng)域感興趣同學(xué)快速高效入門，盧憲凱、晏軼超博士團(tuán)隊(duì)即將會(huì)1.1號(hào)在【雷鋒網(wǎng)】AI慕課學(xué)院推出《計(jì)算機(jī)視覺基礎(chǔ)入門課程（從算法到實(shí)戰(zhàn)應(yīng)用）》，課程深度結(jié)合理論+案例實(shí)訓(xùn)，手把手教實(shí)戰(zhàn)，直通計(jì)算機(jī)視覺的本質(zhì)及其應(yīng)用。

目前課程早鳥優(yōu)惠活動(dòng)火熱進(jìn)行中?。?/span>

了解更多計(jì)算機(jī)視覺算法與實(shí)戰(zhàn)課程信息，可以添加慕慕微信（aimooc-xm），備注“CV”，即可加入“計(jì)算機(jī)視覺基礎(chǔ)”課程咨詢?nèi)骸?/span>

算法到實(shí)戰(zhàn)，如何零基礎(chǔ)入門計(jì)算機(jī)視覺領(lǐng)域