0
本文作者: AI研習(xí)社-譯站 | 2018-08-14 09:49 |
雷鋒網(wǎng)按:這里是,油管 Artificial Intelligence Education 專欄,原作者 Siraj Raval 授權(quán)雷鋒字幕組編譯。
原標(biāo)題:DensePose - 3D Machine Vision
翻譯 | 龍柯宇 校對 | 程煒 整理 | MY
Hi,我們今天的發(fā)文仍然沒有遲到哦,那么你是不是走在要遲到的路上呢?
今天的內(nèi)容來自于油管小哥 Siraj,課代表為你劃重點啦:
1. DensePose 是一種新的深度學(xué)習(xí)模型
2. 它可以使用單塊 GPU
3. 它可以從視頻中為多人建立 3D 模型
4. 沒有源代碼
事情是這樣,F(xiàn)acebook 的 AI 研究團隊發(fā)布了一項 demo,它可以在視頻中標(biāo)出人體所對應(yīng)的全部像素點,并且可以克服大量干擾,使用單塊 GPU 識別出多人的像素點。
你會問我們?yōu)槭裁匆獦?biāo)記人體所對應(yīng)的像素點?事實上這將是項有海量應(yīng)用場景的技術(shù)。
一般我們會在 3D 電影里面看到各種虛擬角色,比如吳彥祖在電影《魔獸》里演的角色古爾丹。古爾丹的獸人外形全靠電腦制作,而其動作、表情、姿態(tài)則需要利用專業(yè)設(shè)備對演員進行動作捕捉,制作 3D 的運動角色需要耗費大量的精力,也需要昂貴的設(shè)備,耗時長、成本高,只有具有充足資金的大規(guī)模工作室才有能力追蹤真人運動并將此轉(zhuǎn)化成動畫。
(這張圖并不是吳彥祖····)
你可能會記得我們曾經(jīng)講過的深度偽造算法,可以實現(xiàn)人臉部圖像的無痕替換修改,這項技術(shù)與之類似,不過是應(yīng)用到整個人體上。我們可以將整個人換成另一個形象,并且保持動作與原圖像一致。簡單點,就是不需要這些復(fù)雜的動作追蹤設(shè)備就可實現(xiàn)虛擬人物制作。
這項技術(shù)其實建立在我們能夠?qū)θ梭w進行三維建模的基礎(chǔ)上,并且這項操作是實時的,他將根據(jù)人體的運動而更新。例如一個舞蹈視頻,我們看到一個二維的像素網(wǎng)格,但是我們都知道他是三維物體在二維網(wǎng)格上的展示,我們需要計算機也有這項能力并且能夠?qū)⒋丝梢暬?/p>
在這項技術(shù)中,計算機和圖片建立了一個對應(yīng)。即它衡量了圖片中的像素點與另一張圖片中的像素點的匹配度,這是二維圖片和三維圖片的匹配。
為了避免圖片中有空洞,也就是說為了讓關(guān)聯(lián)點之間挨得更近,我們需要建立密集對應(yīng),通過物體檢測、物體分割和姿態(tài)估計建立模型。當(dāng)然,更簡單的方式是我們使用有標(biāo)簽的數(shù)據(jù)集幫助深度學(xué)習(xí)變得更簡單。但是我們現(xiàn)在沒有這種人類圖片被標(biāo)注為三維模型的數(shù)據(jù)集,因此我們需要人工標(biāo)注一些三維圖片與二維圖片之間的關(guān)聯(lián),給頭、腳等部分進行標(biāo)注。
現(xiàn)在有一個叫做 DenseReg 的網(wǎng)絡(luò)結(jié)構(gòu)在物體上實現(xiàn)了圖像分類和回歸的功能。網(wǎng)絡(luò)需要判斷每個像素點是屬于背景還是區(qū)域,并給出具體的坐標(biāo),并使用感興趣區(qū)域池化的方法來生成不同的區(qū)域,把特征結(jié)果輸入提供給不同的區(qū)域分支。
最終實現(xiàn)對了從人到 3D 模型的構(gòu)建。
視頻原址:https://www.youtube.com/watch?v=EMjPqgLX14A
想要閱讀更多精彩內(nèi)容,請移步至我們的AI研習(xí)社社區(qū):https://club.leiphone.com/page/home
不同領(lǐng)域包括計算機視覺,語音語義,區(qū)塊鏈,自動駕駛,數(shù)據(jù)挖掘,智能控制,編程語言等每日更新。
雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。