1
本文作者: 老王 | 2016-11-15 16:53 | 專題:微軟亞洲研究院院友會 |
編者按:昨日,周昆教授在微軟亞洲研究院院友會中,結(jié)合自己在該領(lǐng)域多年來的研究經(jīng)驗,提出計算機圖形學(xué) 2.0 的概念,闡明了計算機圖形學(xué)的用戶從專業(yè)人員轉(zhuǎn)變成了普通大眾,即從 1.0 時代演化到 2.0 時代。然后,他從三個自身的研究案例:人物發(fā)型重建、人臉追蹤與動畫、計算制造(3D打印),詮釋了 2.0 的概念。報告最后,周教授從三個方面總結(jié)了圖形學(xué)的變化。
周昆教授,博士生導(dǎo)師,教育部長江學(xué)者特聘教授,國家杰出青年科學(xué)基金獲得者,國際電氣電子工程師協(xié)會會士(IEEE Fellow)。2002 至 2008 年就職于微軟亞洲研究院,2008年全職回到浙江大學(xué)工作。研究領(lǐng)域包括計算機圖形學(xué)、人機交互、虛擬現(xiàn)實和并行計算。近年來在 ACM/IEEE Transactions 上發(fā)表論文 70 余篇,獲得美國發(fā)明專利 30 余項。。曾獲得2010年中國計算機圖形學(xué)杰出獎、2011 年中國青年科技獎、2011 年麻省理工學(xué)院《技術(shù)評論》全球杰出青年創(chuàng)新人物獎 (MIT TR35 Award)、2013年國家自然科學(xué)二等獎、2016年陳嘉庚青年科學(xué)獎(信息技術(shù)科學(xué)獎)。
一提到計算機圖形學(xué)應(yīng)用到的場景,人們首先想到的是電影和游戲。正如每個玩過電腦游戲的人有這樣一個想法:怎樣讓計算機生成如現(xiàn)實世界般栩栩如生的圖像。
周昆博士指出,以電影和游戲為代表的娛樂產(chǎn)業(yè),計算機圖形學(xué)在其中應(yīng)用可總結(jié)為三點:建模、做成動畫、渲染。
先在計算機中把三維物體建模出來,然后再讓它變?yōu)閯討B(tài)(動畫),最后把物體或者動畫渲染成圖片或電影。
計算機圖形研究人員們最終做出來的技術(shù)和軟件(類似 3D Max 和 MAYA)多供游戲和電影工作者使用,這些人利用圖形工具制作出優(yōu)秀的電影和游戲作品。然而大多數(shù)普通用戶幾乎沒有機會使用這些產(chǎn)品進行創(chuàng)作。
因此周昆提出一個設(shè)想,計算機圖形學(xué) 2.0 不僅只為電影、游戲、AR,VR,移動應(yīng)用、3D 打印相關(guān)工作人員使用,而且能夠滿足新應(yīng)用的需求,使得普通用戶也能使用。
正如 Web 1.0 時代網(wǎng)絡(luò)上的內(nèi)容由編輯撰寫,而 Web 2.0 則是 UGC 時代,用戶開始深入?yún)⑴c內(nèi)容的產(chǎn)出。周昆博士希望計算機圖形學(xué) 2.0 從用戶角度講變?yōu)槿巳丝蓞⑴c、可進行創(chuàng)造的時代。
隨后周昆教授著重講述了最近五年他在探索計算圖形學(xué) 2.0 時做的研究,主要專注兩個方向的研究:
數(shù)字化身(digital avatar)
計算制造(computational fabrication)
目前數(shù)字化身的研究主要集中在人臉上,周昆團隊希望用普通的相機就能人臉進行追蹤和捕捉。當(dāng)然,這個方向的研究,計算機圖形學(xué)和計算機視覺已經(jīng)做了很多年,研究主要集中在追蹤效果和抓取方式,以及兩者是否能達到一個較好的妥協(xié)標準。雖然這些技術(shù)早已開始應(yīng)用,但多為提供給專業(yè)人士使用的專業(yè)級產(chǎn)品。
周昆博士的設(shè)想是希望把這些技術(shù)應(yīng)用在普通用戶經(jīng)常使用的移動終端和移動設(shè)備中,尤其是 VR 和 AR:普通人用普通的攝像頭就能把人臉捕捉到,然后繼續(xù)捕捉到表情,把表情抽取出來去應(yīng)用在任意一個化身當(dāng)中。
他們目前正在做的是,任意一個人進入相機視場中,他的人臉就會被捕捉到,他臉部 3D 數(shù)據(jù)隨之被計算而出,然后定制到任意的化身上來。這當(dāng)中需要應(yīng)對三大挑戰(zhàn):
惡劣的環(huán)境:如光線陰暗的網(wǎng)吧、戶外環(huán)境下陽光直射造成陰陽臉,這些環(huán)境均是對算法的執(zhí)行有著較大的干擾。
計算性能問題:捕捉工具應(yīng)用在移動設(shè)備中對計算性能要求較高,目前周昆博士的團隊可在 iPhone上達到每一幀 10 毫秒,安卓平臺上小米三每幀 20毫秒。
對存儲的要求:因為它只能放在端上計算,不能放在云端,放在云端存在視頻帶寬的問題。
頭發(fā)模擬是數(shù)字化身中的一個巨大難題,通常利用計算機圖形學(xué)和計算機視覺的方式做頭發(fā)非常困難,而且需要在實驗室環(huán)境下,布置一定數(shù)量的相機,設(shè)置好特定的光照,抓取不同狀態(tài)的 60 張的圖像,根據(jù)照片中頭發(fā)的特征,把 3D 頭發(fā)重建出來。
周昆教授研究一項全新的單一視圖發(fā)型模擬技術(shù),在只有適度用戶交互的情況下,生成在視覺上和物理上均表現(xiàn)合理的 3D 頭發(fā)模型,以此創(chuàng)建的頭發(fā)模型可以形象地匹配原始輸入圖像。
這是他們今年工作的重點,利用一張照片即可模擬頭發(fā):先利用深度學(xué)習(xí)為頭發(fā)設(shè)計一個神經(jīng)網(wǎng)絡(luò),然后做出發(fā)絲建模,并計算出發(fā)絲朝向的預(yù)測,最終把頭發(fā)的 3D 形狀重建。
上述提到的是頭發(fā)建模問題,而如何把頭發(fā)做成動態(tài)這又是一個新的挑戰(zhàn):
在現(xiàn)實世界中,頭發(fā)的一點點變動都意味著發(fā)絲之間遮擋關(guān)系的變化:一些原來看不到的發(fā)絲暴露出來,另一些原先可見的發(fā)絲被遮擋住和交叉等問題。而在圖像中,這種變化是無法用傳統(tǒng)的基于像素操作的圖像編輯工具實現(xiàn)的。
周昆博士提到,他們在 2014 年做出來的解決方案比當(dāng)時最好的方法快過三個數(shù)量級,模擬 15 萬根頭發(fā)可以做到每幀 45 多毫秒。目前數(shù)字化身更多應(yīng)用在臉部和頭發(fā)上,未來還將繼續(xù)涉及到身體、衣服等組成部分中,以至于達到把人“復(fù)制”出來,也就是數(shù)字替身(Digital Double)。
周昆博士指出,上述提到的研究是把物理的形狀數(shù)字化 3D 化,而計算機圖形 2.0 需要做的事情是把數(shù)字模型物理化,從而制造出新的東西。
把 3D 模型應(yīng)用在工業(yè)制造領(lǐng)域,有些人會提到說用 3D 打印,但其實 3D 打印在復(fù)雜形狀物體打印中表現(xiàn)不錯,但要打印出具有復(fù)雜圖案的全彩色三維物體仍然相當(dāng)困難,這其中存在的巨大問題就是它對顏色的支持很弱,著色效果遠不如二維彩打,而且價格昂貴。另外還受限于塑料和石膏等極少的材料。
環(huán)顧整個傳統(tǒng)制造業(yè),至今都沒有一個很好的方式給 3D 曲面上色。以瓷器生產(chǎn)為例,瓷器的其他工藝自動化已非常成熟,唯獨在上色和貼花方面仍舊保持著最原始傳統(tǒng)的方式。
“我們希望能通過計算手段,去解決三維打印生產(chǎn)環(huán)節(jié)中的瓶頸問題,讓原來很困難的事情變得簡單?!敝芾フf。
為此,周昆團隊提出了全新的計算水轉(zhuǎn)印技術(shù),解決為三維物體進行精確上色的難題。水轉(zhuǎn)印是當(dāng)前在工業(yè)上被廣泛應(yīng)用的曲面上色技術(shù),但只能用于對精確性沒有要求的上色任務(wù),比如迷彩、大理石等紋理。周昆團隊通過計算機圖形學(xué)和計算機視覺技術(shù),讓水轉(zhuǎn)印能夠‘瞄準’,為三維物體穿上任意設(shè)計的彩色‘外衣’。
至于如何實現(xiàn)呢?這需要計算機將三維設(shè)計稿“降維”成一個二維的“展開圖”。他們先對水轉(zhuǎn)印過程中水轉(zhuǎn)印薄膜的形變進行了物理建模,得到三維設(shè)計圖與膜上的每一個點的映射關(guān)系。在這一理論基礎(chǔ)上,開發(fā)出一套用于實際著色的自動原理樣機。
具體應(yīng)用層面,特效師在電腦上完成一張人臉 3D 紋樣設(shè)計后,周昆團隊開發(fā)出的軟件根據(jù) 3D 紋樣后快速計算生成一個二維“展開圖”。隨后,普通噴墨打印機就打印出一張印有“展開圖”的水轉(zhuǎn)印薄膜。將薄膜放在靜止的水面上,將需要上色的人臉模型浸入水中,薄膜即可包裹住人臉模型。通俗講,這像是一種完美精確的自動‘貼膜’技術(shù)。
周昆提到這項技術(shù)的本質(zhì)是將三維數(shù)字化模型表面上的一個點,精確對應(yīng)到其物理模型表面上的點。有了這種從虛擬數(shù)字世界到物理世界的對應(yīng)關(guān)系,未來的技術(shù)開發(fā)將有更大的想象空間。著色,只是其中的一項應(yīng)用。
最后,周昆博士指出計算機圖形學(xué)從 1.0 升級到 2.0 的三大要素。
Input 在變:以往做的是點云和 MASH(MAYA 節(jié)點控制器插件),現(xiàn)在直接處理大量圖像和視頻中,以及從其他傳感器抓取到的信息。而且未來計算機圖形學(xué)和計算機視覺的結(jié)合將越來越緊密。
Output 在變:以往輸出的均為數(shù)字圖像和模型,而現(xiàn)在不僅可得到數(shù)字圖像,也可把數(shù)字圖像和模型應(yīng)用在實體制造中,生產(chǎn)出實體物體。
應(yīng)用場景在變:從電影和游戲場景這兩大應(yīng)用場景延伸到 VR、AR、移動應(yīng)用以及3D打印中。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章