0
本文作者: MarsCao | 2018-10-24 11:44 |
雷鋒網(wǎng)按:光場技術是目前最受追捧的下一代顯示技術,谷歌、Facebook、Magic Leap等國內外大公司都在大力布局。然而目前國內對光場(Light Field)技術的中文介紹十分匱乏,曹煊博士《Mars說光場》系列文章旨在對光場技術及其應用的科普介紹。
曹煊博士系騰訊優(yōu)圖實驗室高級研究員。優(yōu)圖— 騰訊旗下頂級的機器學習研發(fā)團隊,專注于圖像處理、模式識別、深度學習。在人臉識別、圖像識別、醫(yī)療AI、OCR、哼唱識別、語音合成等領域都積累了領先的技術水平和完整解決方案。
《Mars說光場》系列文章目前已有5篇,包括:
《Mars說光場(1)— 為何巨頭紛紛布局光場技術》;
《Mars說光場(2)— 光場與人眼立體成像機理》;
《Mars說光場(3)— 光場采集》;
《Mars說光場(4)— 光場顯示》;
《Mars說光場(5)— 光場在三維人臉建模中的應用》;
雷鋒網(wǎng)經(jīng)授權發(fā)布。
【摘要】 — 光場(Light Field)是空間中光線集合的完備表示,采集并顯示光場就能在視覺上重現(xiàn)真實世界。全光函數(shù)(Plenoptic Function)包含7個維度,是表示光場的數(shù)學模型。光場是以人眼為中心對光線集合進行描述。由于光路是可逆的,以發(fā)光表面為中心來描述光線集合衍生出與光場類似的概念——反射場(Reflectance Field)。反射場也具有7個維度的信息,但每個維度的定義與光場不盡相同。不論光場還是反射場,由于7個維度的信息會急劇增加采集、處理、傳輸?shù)呢摀?,因此實際應用中更多的是采用4D光場模型。隨著Magic Leap One的上市,以及Google《Welcome to light field》在Steam上發(fā)布,光場作為下一代成像/呈像技術,受到越來越多的關注。本文將詳細介紹光場的基本概念,尤其是4D光場成像相比傳統(tǒng)成像的優(yōu)勢。
1、什么是光場?
在人類的五大感知途徑中,視覺占據(jù)了70%~80%的信息來源;而大腦有大約50%的能力都用于處理視覺信息[1]。借助視覺,我們能準確抓取杯子,能在行走中快速躲避障礙物,能自如地駕駛汽車,能完成復雜的裝配工作。從日常行為到復雜操作都高度依賴于我們的視覺感知。然而,現(xiàn)有的圖像采集和顯示丟失了多個維度的視覺信息。這迫使我們只能通過二維“窗口”去觀察三維世界。例如醫(yī)生借助單攝像頭內窺鏡進行腹腔手術時,因無法判斷腫瘤的深度位置,從而需要從多個角度多次觀察才能緩慢地下刀切割。從光場成像的角度可以解釋為:因為缺乏雙目視差,只能依靠移動視差來產生立體視覺。再例如遠程機械操作人員通過觀看監(jiān)視器平面圖像進行機械遙控操作時,操作的準確性和效率都遠遠低于現(xiàn)場操作。
人眼能看見世界中的物體是因為人眼接收了物體發(fā)出的光線(主動或被動發(fā)光),而光場就是三維世界中光線集合的完備表示?!癓ight Field”這一術語最早出現(xiàn)在Alexander Gershun于1936年在莫斯科發(fā)表的一篇經(jīng)典文章中,后來由美國MIT的Parry Moon和Gregory Timoshenko在1939年翻譯為英文[2]。但Gershun提出的“光場”概念主要是指空間中光的輻射可以表示為關于空間位置的三維向量,這與當前“計算成像”、“裸眼3D”等技術中提及的光場不是同一個概念。學術界普遍認為Parry Moon在1981年提出的“Photic Field”[3]才是當前學術界所研究的“光場”。 隨后,光場技術受到MIT、Stanford等一些頂級研究機構的關注,其理論逐步得到完善,多位相關領域學者著書立作逐步將光場技術形成統(tǒng)一的理論體系,尤其是在光場的采集[4]和3D顯示[5,6]兩個方面。歐美等部分高校還開設了專門的課程——計算攝像學(Computational Photography)。
如圖1所示,人眼位于三維世界中不同的位置進行觀察所看到的圖像不同,用(x, y, z)表示人眼在三維空間中的位置坐標。光線可以從不同的角度進入人眼,用(θ, Φ)表示進入人眼光線的水平夾角和垂直夾角。每條光線具有不同的顏色和亮度,可以用光線的波長(λ)來統(tǒng)一表示。進入人眼的光線隨著時間(t)的推移會發(fā)生變化。因此三維世界中的光線可以表示為7個維度的全光函數(shù)(Plenoptic Function, Plen-前綴具有“全能的、萬金油”的意思)[7]。
P(x, y, z, θ, Φ, λ, t)
圖 1. 7D全光函數(shù)示意圖
上述光場的描述是以人眼為中心。光路是可逆的,因此光場也可以以物體為中心等效的描述。與“光場”相類似的另一個概念是“反射場(Reflectance Field)”。如圖2所示,物體表面發(fā)光點的位置可以用(x, y, z)三個維度來表示;對于物體表面的一個發(fā)光點,總是向180度半球范圍內發(fā)光,其發(fā)光方向可以用水平角度和垂直角度(θ, Φ)來表示;發(fā)出光線的波長表示為(λ);物體表面的光線隨著時間(t)的推移會發(fā)生變化。同理,反射場可以等效表示為7維函數(shù),但其中的維度卻表示不同的意義。
圖 2. 7D反射場示意圖
對比光場與反射場可以發(fā)現(xiàn):光場與反射場都可以用7個維度來表征,光場是以人眼為中心描述空間中所有的光線,反射場是以物體表面發(fā)光點為中心描述空間中所有的光線。光場所描述的光線集合與反射場所描述的光線集合是完全一致的。換句話說,光場中的任一條光線都可以在反射場中找到。
2、為什么要研究光場?
【從光場采集的角度來看】以自動駕駛為例,首先需要通過多種傳感器去“感知”外界信息,然后通過類腦運算進行“決策”,最后將決策以機械結構為載體進行“執(zhí)行”?,F(xiàn)階段人工智能的發(fā)展更傾向于“類腦”的研究,即如何使計算機具有人腦類似的決策能力。然而卻忽略了“眼睛”作為一種信息感知入口的重要性。設想一個人非常“聰明”但是視力有障礙,那么他將無法自如的駕駛汽車。而自動駕駛正面臨著類似的問題。如果攝像機能采集到7個維度所有的信息,那么就能保證視覺輸入信息的完備性,而“聰明”的大腦才有可能發(fā)揮到極致水平。研究光場采集將有助于機器看到更多維度的視覺信息。
【從光場的顯示角度來看】以LCD/OLED顯示屏為例,顯示媒介只能呈現(xiàn)光場中(x, y, λ, t)四個維度的信息,而丟失了其他三個維度的信息。在海陸空軍事沙盤、遠程手術等高度依賴3D視覺的場景中,傳統(tǒng)的2D顯示媒介完全不能達到期望的效果。實現(xiàn)類似《阿凡達》中的全息3D顯示,是人類長久以來的一個夢想。當光場顯示的角度分辨率和視點圖像分辨率足夠高時可以等效為動態(tài)數(shù)字彩色全息。研究光場顯示將有助于人類看到更多維度的視覺信息。
從1826全世界第一臺相機誕生[8]至今已經(jīng)有近兩百年歷史,但其成像原理仍然沒有擺脫小孔成像模型。在介紹小孔成像模型之前,先看看如果直接用成像傳感器(e.g. CCD)采集圖像會發(fā)生什么事呢? 如圖3所示,物體表面A、B、C三點都在向半球180度范圍內發(fā)出光線,對于CCD上的感光像素A'會同時接收到來自A、B、C三點的光線,因此A'點的像素值近似為物體表面上A、B、C三點的平均值。類似的情況也會發(fā)生在CCD上的B'和C'點的像素。因此,如果把相機上的鏡頭去掉,那么拍攝的圖片將是噪聲圖像。
圖 3. 無小孔的噪聲成像
如果在CCD之前加一個小孔,那么就能正常成像了,如圖4所示。CCD上A'點只接收到來自物體表面A點的光線。類似的,CCD上B'和C'點也相應只接收到物體表面B點和C的點光線。因此,在CCD上可以成倒立的像。
圖 4. 小孔成像
實際的相機并沒有采用如圖4中的理想小孔成像模型,因為小孔直徑較小會導致通光亮非常小,信噪比非常低,成像傳感器無法采集到有效的信號;如果小孔直徑足夠小,當與光波長相當時還會產生衍射現(xiàn)象。而小孔直徑過大會導致成像模糊?,F(xiàn)代的成像設備用透鏡來替代小孔,從而既能保證足夠的通光量,又避免了成像模糊。如圖5所示,物體表面A點在一定角度范圍內發(fā)出的光線經(jīng)過透鏡聚焦在成像傳感器A’點,并對該角度范圍內所有光線進行積分,積分結果作為A點像素值。這大大增加了成像的信噪比,但同時也將A點在該角度范圍內各方向的光線耦合在一起。
圖 5. 透鏡小孔成像
小孔成像模型是光場成像的一種降維形式,只采集了(x, y, λ, t)四個維度的信息。RGB-D相機多了一個維度信息(x, y, z, λ, t)。相比全光函數(shù),其主要丟失的維度信息是光線的方向信息(θ, Φ)。缺失的維度信息造成了現(xiàn)有成像/呈像設備普遍存在的一系列問題。在圖像采集方面,可以通過調節(jié)焦距來選擇聚焦平面,然而無論如何調節(jié)都只能確保一個平面清晰成像,而太近或太遠的物體都會成像模糊,這給大場景下的AI識別任務造成了極度的挑戰(zhàn)。在渲染顯示方面,由于(θ, Φ)維度信息的缺失會引起渲染物體缺乏各向異性的光線,從而顯得不夠逼真。好萊塢電影大片中渲染的逼真人物大多采用了光場/反射場這一技術才得以使得各種科幻的飛禽走獸能栩栩如生。
3、光場4D參數(shù)化
根據(jù)7D全光函數(shù)的描述,如果有一個體積可以忽略不計的小球能夠記錄從不同角度穿過該小球的所有光線的波長,把該小球放置在某個有限空間中所有可以達到的位置并記錄光線波長,那么就可以得到這個有限空間中某一時刻所有光線的集合。在不同時刻重復上述過程,就可以實現(xiàn)7D全函數(shù)的完備采集。Google Daydream平臺Paul Debevec團隊在Steam平臺上推出的《Welcome To Light Field》就是采用了類似的思想實現(xiàn)的。然而,采集的數(shù)據(jù)量巨大。按照當前的計算機技術水平,難以對7D光場這么龐大的數(shù)據(jù)進行實時處理和傳輸。因此有必要對7D光場進行簡化降維。
如圖6所示,美國斯坦福大學的Marc Levoy將全光函數(shù)簡化降維,提出(u,v,s,t)4D光場模型[9]。Levoy假設了兩個不共面的平面(u,v)和(s,t),如果一條光線與這兩個平面各有一個交點,則該光線可以用這兩個交點唯一表示。Levoy提出的光場4D模型有一個重要的前提假設:在沿光線傳播方向上的任意位置采集到的光線是一樣的。換句話說,假設任意一條光線在傳播的過程中光強不發(fā)生衰減且波長不變??紤]到日常生活中光線從場景表面到人眼的傳播距離非常有限,光線在空氣中的衰減微乎其微,上述Levoy提出的假設完全合理。
Levoy提出的光場4D模型并不能完備地描述三維空間中所有的光線,與(u,v)或(s,t)平面所平行的光線就不能被該4D模型所表示,例如圖6中紅色標示的光線。盡管Levoy提出的4D模型不能完備描述三維空間中所有的光線,但可以完備描述人眼接收到的光線。因為當光線與人眼前視方向垂直時,該光線不會進入人眼。因此,這部分光線并不影響人眼視覺成像。Levoy提出的4D模型既降低了表示光場所需的維度,同時又能完備表示人眼成像所需要的全部光線。光場4D模型得到了學術界的廣泛認可,關于光場的大量研究都是在此基礎上展開。
圖 6. 4D光場模型
4D光場模型具有可逆性,既能表示光場采集,又能表示光場顯示。如圖7所示,對于光場采集模型,右側物體發(fā)出的光線經(jīng)過(s,t)和(u,v)平面的4D參數(shù)化表示,被記錄成4D光場。對于光場顯示模型,經(jīng)過(u,v)和(s,t)平面的調制可以模擬出左側物體表面的光線,從而使人眼“看見”并不存在的物體。
圖 7. 4D光場模型的可逆性
如圖8所示,物體表面A、B、C三點發(fā)出的光線首先到達(u,v)平面,假設(u,v)平面上有三個小孔h1、h2、h3,則A、B、C三點發(fā)出的光線經(jīng)三個小孔分別到達(s,t)平面。A、B、C三點在半球范圍內三個不同方向的光線被同時記錄下來,例如A點三個方向的光線分別被(s,t)平面上A3’、B3’、C3’記錄。如果(u,v)平面上小孔數(shù)量更多,且(s,t)平面上的像素足夠密集,則可以采集到空間中更多方向的光線。需要說明的是,圖8中展示的是(u,v)(s,t)光場采集模型在垂直方向上的切面圖,實際上可以采集到A、B、C三點9個不同方向(3x3)的光線。
圖 8. 4D光場采集空間光線示意圖
圖像分辨率和FOV(Field Of View)是傳統(tǒng)相機成像性能的主要指標。衡量4D光場的指標不僅有圖像分辨率和FOV,還有角度分辨率和FOP(Field Of Parallax)。 圖9展示了基于微透鏡陣列的光場相機的光路示意圖,物體表面發(fā)出的光線進入相機光圈,然后被解耦和并分別被記錄下來。以B點為例,發(fā)光點B在半球范圍內發(fā)出各向異性的光線,但并不是所有的光線都進入相機光圈,只有一定角度內的光線被成功采集,被光場相機采集到的光線的角度范圍決定了能夠觀察的最大視差范圍,我們記這個角度為FOP。換句話說,圖9中光場相機只能采集到B點FOP角度范圍內的光線。但FOP的大小隨著發(fā)光點與光場相機的距離遠近而不同,因此通常采用基線的長度來衡量FOP的大小,圖9中主鏡頭的光圈直徑等效為基線長度。
圖9中B點在FOP角度范圍內的光線被微透鏡分成4x4束光線,光場相機的角度分辨率即為4x4,光場相機的角度分辨率表征了一個發(fā)光點在FOP角度范圍內的光線被離散化的程度。而基于小孔成像模型相機的角度分辨率始終為1x1。光場的視點圖像分辨率同樣表征了被采集場景表面離散化程度,成像傳感器分辨率除以角度分辨率即為視點圖像分辨率。
圖 9. 透鏡陣列4D光場的圖像分辨率和角度分辨率
基于相機陣列的光場相機同樣可以用視點圖像分辨率、角度分辨率、FOV、FOP四個參數(shù)來衡量光場相機的各方面性能。如圖10所示為4x4相機陣列,B點半球范圍內發(fā)出的光線中FOP角度范圍內的光線被相機陣列分成4x4束并分別被采集。相機的個數(shù)4x4即為角度分辨率,單個相機成像傳感器的分辨率即為視點圖像分辨率。所有相機FOV的交集可以等效為光場相機的FOV。基于相機陣列的光場相機的基線長度為兩端相機光心之間的距離。一般而言,基于相機陣列的光場相機比基于微透鏡陣列的光場相機具有更長的基線,也就具有更大的FOP角度。
圖 10. 相機陣列4D光場的圖像分辨率和角度分辨率
4、光場4D可視化
4D光場數(shù)據(jù)可以表示為(Vx, Vy, Rx, Ry),其中(Vx, Vy)表征了角度分辨率,表示有Vx*Vy個視點(View)圖像;(Rx, Ry)表征視點圖像分辨率,表示單個視點圖像的分辨率為Rx*Ry。如圖11中上側圖展示了7x7光場的可視化,表示共有49個視點圖像,每個視點的圖像分辨率為384x512。視點圖像分辨率越高,包含的細節(jié)越多。角度分辨率越高,單位角度內視點數(shù)量越多,視差過度就越平滑。角度分辨率越低,視點就越稀疏,觀看光場時視點跳躍感越明顯。假設在10度的可視角度內水平方向上包含了7個視點,相鄰視點間的角度為1.67度,在2米的觀看距離,相鄰兩個視點的水平距離為29毫米。當視點個數(shù)減少,相鄰視點的空間距離變大,觀看者移動觀看位置時就會感到明顯的視點跳躍。
光場中任意兩個視點間都存在視差,將光場(Vx, Vy, Rx, Ry)中的部分視點圖像放大,如圖11中下側所示;同一行所有視點圖像之間只有水平視差,沒有垂直視差;同一列所有視點圖像之間只有垂直視差,沒有水平視差。
圖 11. 光場角度分辨率和視點分辨率可視化分析
光場作為高維數(shù)據(jù),不便于可視化分析。為了更好的分析光場中的視差,往往將光場中某一個水平/垂直視點上所有圖像的同一行/列像素堆成一幅2D圖像,稱之為光場切片數(shù)據(jù)(Light Field Slice)。光場切片圖像可以將光場中的水平視差和垂直視差可視化,便于直觀分析。如圖12中藍色線條所在的行像素堆疊后就形成了圖12中下側的光場切片圖像。類似的,如圖11中將光場中同一垂直視點上所有綠色線條所在的列像素堆疊后就形成了圖11中右側的光場切片圖像。
圖 12. 光場切片圖例
5、光場技術展望
從全世界光場技術的發(fā)展趨勢來看,美國硅谷的科技巨頭爭相布局和儲備光場技術,有些甚至已經(jīng)出現(xiàn)了Demo應用。在光場的采集方面,例如Google在Steam平臺上發(fā)布的《Welcome to Light Field》、Lytro光場相機。在光場顯示方面,例如Magic Leap采用的兩層離散光場顯示技術、NVIDIA發(fā)布的近眼光場顯示眼鏡、Facebook旗下Oculus的道格拉斯?蘭曼團隊正在研發(fā)的光場VR頭盔。
光場技術的研究主要分為兩大方面,包括光場采集和光場顯示。光場采集技術相對更成熟,在某些To B領域已經(jīng)基本達到可以落地使用的程度。光場采集主要是提供3D數(shù)字內容,一次采集可以推廣使用,這并不要求由個體消費者來完成,一般都是由一個團隊來完成。因此對于光場采集系統(tǒng)的硬件成本、體積、功耗有更大的可接受度。相比之下,光場顯示是偏向To C的產品,個體用戶在成本、體積、功耗、舒適度等多方面都極度挑剔。光場顯示在多個高校和科研機構已經(jīng)完成了原形樣機的開發(fā),在通往商業(yè)化實用的道路上,目前最大的挑戰(zhàn)就在于光場顯示設備的小型化和低功耗。
Magic Leap One的推出似乎并沒有達到消費者原本對它的期待,這其中的差距是可以解釋的。是否具備光場顯示對于VR/AR頭盔來說最大的區(qū)別是能否解決VAC (Vergence–Accommodation Conflicts) 問題,關于VAC的解釋具體可參見《Mars說光場(2)— 光場與人眼立體成像機理》。當前的VR/AR頭盔只有一層呈像平面,會引起頭暈、近視等VAC問題。當光場VR/AR頭盔中呈現(xiàn)無窮多層不同距離上的呈像平面時,VAC的問題就會得到完美解決。然而在可預見的未來,實現(xiàn)無窮多層呈像平面的光場顯示技術是不現(xiàn)實的。換句話說,在可預見的未來,讓個體消費者能使用上100%完美理想的光場顯示設備,這本來就是一個不切實際的目標。因此只能盡量增加光場中呈像平面的層數(shù),VAC的問題隨著呈像層數(shù)的增加就會得到越發(fā)明顯的改善。當呈像層數(shù)達到一定數(shù)量以后,人眼已經(jīng)無法明顯感受到VAC。就像手機屏幕的分辨率達到一定密度以后,雖然仍是由離散的像素點構成,但人眼已經(jīng)無法分辨。因此,并不需要刻意追求無窮多層可連續(xù)聚焦的光場顯示。
在Magic Leap One上市之前,所有商業(yè)化的顯示設備都是在追求分辨率、色彩還原度等指標的提升,而從來沒有顯示維度的突破。Magic Leap One是目前全世界范圍內第一款具有大于1層呈像平面的商業(yè)化頭戴顯示設備。Magic Leap One的2層呈像平面相比HoloLens的1層呈像平面在視覺體驗上并不會帶來明顯的改善,但是在對長期佩戴所引起的疲勞、不適、近視等問題是會有所改善的。然而用戶對此并不買賬,可以解釋為三方面的原因:(1)目前VR/AR設備的用戶使用時間本來就很短,用戶對于緩解疲勞等隱性的改善沒有立即直觀的體驗,這些隱性的改善往往會被忽略。(2)現(xiàn)代消費人群沒有體驗過黑白電視和CRT顯示器,在新興消費人群中1080P、全彩色、無色差等是他們對顯示設備的底線要求,而且這種底線還在逐年提高。當Magic Leap One上市時,一旦分辨率或色彩還原度低于消費者能接受的底線,縱然光場顯示帶來了其他的隱性改善,但消費者會在第一印象中產生抗拒情緒。相比手機的高質量顯示,Magic Leap One和HoloLens在顯示的質量上都有所退化,對于已經(jīng)習慣2K的用戶而言,很難接受這樣的顯示質量退化。(3)Magic Leap One的呈像平面從1層增加到2層,這并代表其視覺體驗就能改善2倍。只有當呈像平面達到一定數(shù)量以后,人眼才能感覺到視覺呈像質量的明顯改善。
盡管Magic Leap的2層光場顯示并沒有得到用戶的高度認可,但它在顯示的維度上實現(xiàn)了0到1的突破。光場顯示層數(shù)能夠從單層增加到2層,這是光場顯示技術商業(yè)化的良好開端,后續(xù)從2層增加到10層甚至20層只是時間的問題了?;仡櫴謾C發(fā)展歷史,手機顯示經(jīng)歷了從大哥大時代的單行黑白屏到現(xiàn)在iPhone X約2K全彩顯示屏。我相信目前光場顯示設備就像30年前的大哥大一樣,正處于黎明前的黑暗,必然還需要經(jīng)歷多次的進化。一旦成功,其最終光場顯示的效果相對目前的智能手機來說將會是革命性的進步。
[1] E. N. Marieb and K. N. Hoehn, Human Anatomy & Physiology (Pearson, 2012).
[2] A. Gershun, “The light field,” Moscow, 1936, P. Moon and G. Timoshenko, translators, J. Math. Phys. XVIII, 51–151 (1939).
[3] Moon P, Spencer D E. The photic field[J]. Cambridge Ma Mit Press P, 1981, 1.
[4] Zhang C, Chen T. Light Field Sampling[J]. Synthesis Lectures on Image Video & Multimedia Processing, 2006(1):102.
[5] Javidi B, Okano F. Three-Dimensional Television, Video, and Display Technology[J]. Materials Today, 2003, 6(2):50.
[6] Ozaktas H M, Onural L. Three-Dimensional Television: Capture, Transmission, Display[J]. Thomas Telford, 2008, 2(1):487 - 488.
[7] E. Adelson and J. Bergen, “The plenoptic function and the elements of early vision,” in Computational Models of Visual Processing (MIT, 1991), pp. 3–20.
[8] Todd Gustavson, George Eastman House. Camera: A history of photography from daguerreotype to digital[M]. Sterling Innovation, 2012.
[9] M. Levoy and P. Hanrahan, Light field rendering[C]. Proceedings of ACM SIGGRAPH, 1996.
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。