0
本文作者: MarsCao | 2018-10-24 15:35 |
雷鋒網(wǎng)按:光場技術是目前最受追捧的下一代顯示技術,谷歌、Facebook、Magic Leap等國內(nèi)外大公司都在大力布局。然而目前國內(nèi)對光場(Light Field)技術的中文介紹十分匱乏,曹煊博士《Mars說光場》系列文章旨在對光場技術及其應用的科普介紹。
曹煊博士系騰訊優(yōu)圖實驗室高級研究員。優(yōu)圖— 騰訊旗下頂級的機器學習研發(fā)團隊,專注于圖像處理、模式識別、深度學習。在人臉識別、圖像識別、醫(yī)療AI、OCR、哼唱識別、語音合成等領域都積累了領先的技術水平和完整解決方案。
《Mars說光場》系列文章目前已有5篇,包括:《Mars說光場(1)— 為何巨頭紛紛布局光場技術》、《Mars說光場(2)— 光場與人眼立體成像機理》、《Mars說光場(3)— 光場采集》、《Mars說光場(4)— 光場顯示》、《Mars說光場(5)— 光場在三維人臉建模中的應用》 ,雷鋒網(wǎng)經(jīng)授權(quán)發(fā)布。
【摘要】 — 光場顯示能在視覺上完全重現(xiàn)真實世界,但在顯示光場以前首先要采集光場,否則將會是“巧婦難為無米之炊”。傳統(tǒng)相機拍攝的2D圖片不能用于光場顯示[1],因此需要專業(yè)的光場采集設備。相關研究者已經(jīng)建立了一系列光場采集的理論[2],并在光場采集技術的發(fā)展過程中出現(xiàn)了多種設計方案,受到廣泛關注和研究的主要有三種設計思路:(1)基于微透鏡陣列(Microlens Array)的光場采集;(2)基于相機陣列(Camera Array)的光場采集[3];(3)基于編碼掩膜(Coded Mask)[4]的光場采集。
1、基于微透鏡陣列的光場采集
基于微透鏡陣列的光場采集最早可以追溯到1908年Lippmann提出的集成成像(Integral photography)[5],集成成像為基于微透鏡陣列的光場采集奠定了重要的理論基礎。關于集成成像的發(fā)展歷史,可以參考Roberts在2003年的詳細梳理[6]。基于集成成像理論,MIT的Adelson在1992年嘗試采用微透鏡陣列來制造光場相機[7],斯坦福Levoy將集成成像應用于顯微鏡,實現(xiàn)了光場顯微鏡[8]。
基于透鏡陣列的光場采集主要依靠在成像傳感器與主鏡頭之間加入一片微透鏡陣列,物體表面光線首先經(jīng)過主鏡頭,然后經(jīng)過微透鏡,最后到達成像傳感器(e.g. CCD/CMOS)。如圖1所示,物體表面A點在FOP角度范圍內(nèi)發(fā)出的光線進入相機主鏡頭并聚焦于微透鏡,微透鏡將光線分成4x4束,并被成像傳感器上對應的16個像素記錄。類似的,空間中其它發(fā)光點,例如B點和C點,在其FOP角度范圍內(nèi)的光線都被分成4x4束并被分別記錄。
微透鏡陣列的主要作用是將物體表面同一點在一定角度范圍內(nèi)的各個方向發(fā)出光線進行離散化解耦,圖1中的微透鏡將光線離散化為4x4束,離散化程度由微透鏡光學參數(shù)、主透鏡光學參數(shù)及微透鏡與成像傳感器之間的距離等多方面因素決定。
參照光場4D模型,微透鏡陣列好比(s, t)平面,成像傳感器好比(u, v)平面。在基于微透鏡陣列的光場采集模型中,(s, t)平面微透鏡的數(shù)量決定了光場的圖像分辨率。(u, v)平面像素數(shù)量決定了能采集光線的總數(shù)量,(u, v)平面像素總量與(s, t)平面微透鏡數(shù)量的比值即為光場角度分辨率,也即采集視點個數(shù)。
圖 1. 基于微透鏡陣列的光場采集原理示意圖
基于微透鏡陣列的光場采集具有體積小,單次拍攝成像等優(yōu)點。但也存在兩個明顯的缺陷,一方面是單視點的圖像分辨率損失嚴重[9],例如使用4K(4096*2160)的圖像傳感器采集4x4視點的光場,則圖像分辨率在水平方向和垂直方向都降低到原分辨率的四分之一,既單個視點圖像分辨率只有1024*540。另一方面是采集光場的FOP角度較小,也即視差較小,只能在較小的角度范圍內(nèi)變換視點。
盡管存在上述的缺點,但由于總體成本在可控范圍內(nèi),基于微透鏡的光場采集方案是商業(yè)化光場相機主要采用的方案。目前已經(jīng)商業(yè)化的光場相機主要包括美國的Lytro和德國的Raytrix。Lytro是一款基于微透鏡陣列的手持光場相機,由斯坦福大學Ren Ng(Marc Levoy的博士生)在2005年提出 [10,11],并分別于2011年和2014年正式向市場推出第一代和第二代手持式光場相機Lytro[12]。相比傳統(tǒng)相機,Lytro的關鍵設計是在傳統(tǒng)相機中嵌入一塊微透鏡陣列,如圖2所示。物體發(fā)出的光線被主透鏡聚焦在微透鏡陣列平面,微透鏡陣列將光線分開并被圖像傳感器分別記錄下來,從而同時記錄了不同方向上光線的強度。
圖 2. 美國Lytro基于微透鏡陣列的光場相機
Raytrix [13]是德國一家創(chuàng)業(yè)公司,同樣是基于微透鏡陣列的便攜式光場相機[14]。Lytro主要面向大眾普通用戶,而Raytrix不僅面向普通用戶還面向工業(yè)和科研應用領域,如圖3所示。Raytrix擴大了采集光場的深度范圍[15]并開發(fā)了一套自動標定算法用于標定光場相機[16]。
圖 3. 德國Raytrix基于微透鏡陣列的光場相機
Adobe Systems Inc. 的Todor Georgeiv在2006年研究了視點分辨率與角度分辨率之間的互相平衡關系[17],在2008年提出了一種統(tǒng)一的光場相機仿射光路理論[18]并提高光場分辨率[19],基于該理論框架構(gòu)造的光場相機如圖4所示。嚴格來說,Todor Georgeiv提出的光場相機與上述Lytro和Raytrix的基于微透鏡陣列的光場相機并不完全相同。圖4中透鏡陣列更靠近相機主透鏡位置,解耦合后的光線在成像傳感器上形成的圖像與Lytro或Raytrix并不相同,因此從成像傳感器原始數(shù)據(jù)提取光場的算法也與Lytro和Raytrix不同。
圖 4. 美國Adobe Systems Inc.光場相機
2、基于相機陣列的光場采集
基于相機陣列的光場采集不需要對相機進行改造,但需要增加相機的數(shù)量。光線從物體表面發(fā)出,分別進入多個相機鏡頭,并分別被對應的成像傳感器記錄。如圖5所示為4x4相機陣列,A點在半球范圍內(nèi)發(fā)出各向異性的光線,其中FOP角度范圍內(nèi)的光線進入了相機陣列,并被分成4x4束光線,每束光線被對應的鏡頭聚焦在成像傳感器上,由此A點各向異性的光線被離散化為4x4束并被分別記錄。
對比圖1中基于微透鏡的光場采集方案,相機陣列通過多個鏡頭將物體表面同一點在一定角度內(nèi)各向異性的光線解耦和,并離散為多束光線分別記錄。解耦和后的離散化程度由相機陣列的規(guī)模決定。相機數(shù)量越多,離散化程度越高。
參照光場4D模型,圖5中鏡頭陣列好比(s, t)平面,成像傳感器陣列好比(u, v)平面。(s, t)平面鏡頭的數(shù)量,也即相機的數(shù)量,決定了光場視點個數(shù)。(u, v)平面所有像素數(shù)量決定了能采集光線的總數(shù)量。(u, v)平面像素總量與(s, t)平面鏡頭數(shù)量的比值即為單個視點分辨率。一般而言,相機陣列中各個相機成像傳感器的分辨率一致,所以單個相機成像傳感器的分辨率即為光場視點分辨率。
圖 5. 基于相機陣列的光場采集示意圖
相比基于微透鏡陣列的光場相機,基于相機陣列的光場采集方案具有兩個明顯的優(yōu)勢:(1)采集光場的FOP角度較大,也即視差較大,可以在較大的角度范圍內(nèi)變換視點。(2)圖像分辨率不損失,因此單個視點的圖像分辨率一般都高于基于微透鏡陣列的光場相機。但基于相機陣列的光場采集方案也存在成本高昂,體積較大的明顯缺陷,例如圖6中Jason Yang于2002年在MIT搭建出全世界第一套近實時相機陣列[20],由8x8共64個相機組成,單個視點分辨率為320x240,光場采集速率為18FPS,延遲為80毫秒。
圖 6. Jason Yang于2002年在MIT實現(xiàn)的實時相機陣列
斯坦福大學Bennett Wilburn在2000年實現(xiàn)了數(shù)據(jù)編碼壓縮的光場視頻相機[21],之后進一步改進光場相機系統(tǒng),在2004年展示了稠密光場相機陣列[22]。Bennett Wilburn設計的稠密光場相機陣列包含52個30fps的COMS成像單元,單個視點分辨率為640x480,如圖7所示。
圖 7. Bennett Wilburn于2004年在斯坦福大學設計的稠密光場相機陣列
Bennett Wilburn在2005年進一步增加相機數(shù)量到約100個,構(gòu)建了大規(guī)模光場相機陣列[23],并搭建了三種不同類型的大規(guī)模光場相機,如圖8所示,分別是(a)緊密排列的長焦鏡頭大規(guī)模相機陣列,主要用于實現(xiàn)高分辨率成像。(b)緊密排列的廣角鏡頭大規(guī)模相機陣列,主要用于實現(xiàn)高速視頻捕獲和混合合成孔徑成像。(c)分散排布的大規(guī)模相機陣列。
圖 8. Bennett Wilburn于2005年在斯坦福大學設計的大規(guī)模光場相機陣列
由于硬件成本高昂,體積較大等缺點,目前To C端的應用中還沒有采用基于相機陣列的光場采集方案。曹煊在2015年提出稀疏相機陣列光場采集方案[24],利用壓縮感知和稀疏編碼大大減少了相機數(shù)量,降低了硬件成本,但仍然存在體積大的問題。Pelican是美國硅谷的一家創(chuàng)業(yè)公司,正在嘗試將相機陣列小型化。該公司在2013年實現(xiàn)了超薄高性能的相機陣列[25],如圖9所示。通過光學設計的優(yōu)化[26]和光場超分辨算法的應用[27,28],Pelican制造了小巧的相機陣列,并形成一個獨立的光場相機模塊。Pelican綜合了多種方法在保持相機陣列輕薄的前提下提升了所采集光場分辨率[29,30]。
圖 9. 美國初創(chuàng)公司Pelican設計的超小體積高性能相機陣列
3、基于編碼掩膜的光場采集
基于微透鏡陣列和基于相機陣列的光場采集都有一個共同點——“陣列”。前者通過多個微透鏡構(gòu)成陣列,犧牲圖像分辨率換取角度分辨率。后者通過多個相機構(gòu)成陣列,在不犧牲圖像分辨率的情況下增加了角度分辨率,但是需要增加大量的圖像傳感器??傮w而言,視點分辨率與角度分辨率是一對矛盾因素,總是此消彼長。通過增加成像傳感器數(shù)量來抵消這一矛盾會造成硬件成本的急劇增加。
上述兩種光場采集方案必須在圖像分辨率和角度分辨率之間進行折中。學術界最新出現(xiàn)的基于編碼掩膜的光場采集打破了這一局限。該方案通過對光場的學習去掉光場的冗余性,從而實現(xiàn)了采集更少的數(shù)據(jù)量而重建出完整的光場。
如圖10所示,在傳統(tǒng)相機的成像光路中加入一片半透明的編碼掩膜,掩膜上每個像素點的光線透過率都不一樣(也稱為編碼模式),進入光圈的光線在到達成像傳感器之前會被掩膜調(diào)制,經(jīng)過掩膜調(diào)制后的光線到達成像傳感器。利用提前學習好的光場字典,從單幅采集的調(diào)制圖像就可以重建出完整的光場。掩膜的編碼模式理論上可以采用隨機值,Kshitij Marwah證明了通過約束變換矩陣的轉(zhuǎn)置與變換矩陣的乘積為單位矩陣可以得到優(yōu)化的編碼掩膜,采用優(yōu)化后的編碼掩膜可以重建出更高質(zhì)量的光場。
圖 10. Kshitij Marwah于2013年在MIT設計的掩膜光場相機
很多學者已經(jīng)嘗試利用編碼掩膜來實現(xiàn)計算成像,例如國立臺灣大學的Chia-Kai Liang 在2008年采用可編程的光圈結(jié)合多次曝光成像實現(xiàn)了光場采集[31]。美國MIT大學在掩膜相機方面的研究非常深入,MIT大學CSAIL的Anat Levin 于2007年采用編碼光圈實現(xiàn)了深度圖像的采集[32],MIT Media Lab的Veeraraghavan Ashok 在2007年采用掩膜實現(xiàn)了可以重聚焦的相機[33],后于2011年結(jié)合閃光燈和相機掩膜實現(xiàn)了對高頻周期變化的圖像進行高速攝像[34]。MIT Media Lab的Kshitij Marwah于2013年提出了基于掩膜的壓縮光場采集[35]。
基于編碼掩膜的光場采集方案最大的優(yōu)勢在于不需要犧牲圖像分辨率就能提高角度分辨率。但該方案存在光場圖像信噪比低的缺點,這主要是由于兩方面的原因造成:(1)掩膜的透光率不能達到100%,因此會損失光線信號強度,導致成像信噪比低;(2)所重建的最終光場圖像并不是成像傳感器直接采集得到,而是通過從被調(diào)制的圖像中進行解調(diào)制得到;本質(zhì)上是基于已經(jīng)學習的光場字典去“猜”出待重建的光場。
4、光場采集方案對比
上述三種主流的光場采集方案與傳統(tǒng)相機總結(jié)對比如下表。
表1. 傳統(tǒng)2D采集設備與光場采集設備的對比
采集數(shù)據(jù)維度 | 優(yōu)點 | 缺點 | |
傳統(tǒng)相機 | R(x, y, λ, t) | 技術成熟, 價格低廉 | 只能采集平面圖片, 等同于角度分辨率為1X1的低階光場 |
微透鏡陣列 | R(x, y, θ, Φ, λ, t) | 體積小, 成本較低 | 圖像分辨率損失嚴重 |
相機陣列 | R(x, y, θ, Φ, λ, t) | 基線大,視差大 圖像分辨率較高 | 成本高,體積大 硬件同步困難 |
編碼掩膜 | R(x, y, θ, Φ, λ, t) | 體積小 分辨率不損失 | 信噪比低 光場質(zhì)量下降 |
基于微透鏡陣列的光場采集具有體積小巧,硬件成本低等優(yōu)點。但其缺點也很明顯:1)光場視點圖像分辨率損失嚴重,隨著視點數(shù)量的增加,單個視點分辨率急劇降低。2)受到相機光圈的限制,光場中可觀察的視差范圍較小。
基于相機陣列的光場采集相比基于微透鏡陣列的光場采集具有更多優(yōu)點:1)視點分辨率不損失,由單個相機成像傳感器決定。2)光場的視差范圍更大。但基于相機陣列的光場采集仍然面臨兩個問題:1)需要的相機數(shù)量較多,硬件成本高昂,例如采集7x7視點的光場需要49個相機。2)相機同步控制復雜,數(shù)據(jù)量大,存儲和傳輸成本高。
基于編碼掩膜的光場采集打破了角度分辨率與視點圖像分辨率之間的互相制約關系,利用“學習”的方法去掉光場冗余性,從少量信息中恢復光場。雖然存在信噪比降低的問題,但在2K時代,分辨率不損失這一優(yōu)點使得該方案受到廣泛關注。
[1] Van Berkel C. Image Preparation for 3D-LCD[C]//Stereoscopic Displays and Virtual Reality Systems VI,1999.
[2] Chai J X, Tong X, Chan S C, et al. Plenoptic sampling[C]// Conference on Computer Graphics and Interactive Techniques. ACM Press/Addison-Wesley Publishing Co. 2000:307-318.
[3] Levoy M. Light Fields and Computational Imaging[J]. Computer, 2006, 39(8):46-55.
[4] Lanman D. Mask-based light field capture and display[C]// Ph.D. Dissertation, Brown University, 2011.
[5] Lippmann G. Epreuves reversibles. Photographies integrals[J]. Comptes-Rendus Academie des Sciences, 1908, 146(3):446-451.
[6] Roberts D E. History of Lenticular and Related Autostereoscopic Methods[J]. Leap Technologies Hillsboro, 2003.
[7] Adelson E H, Wang J Y A. Single Lens Stereo with a Plenoptic Camera[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1992, 14(2):99-106.
[8] Levoy M, Ren N, Adams A, et al. Light field microscopy[J]. Acm Transactions on Graphics, 2006, 25(3):924-934.
[9] Hoshino H, Okano F, Isono H, et al. Analysis of resolution limitation of integral photography[J]. Journal of the Optical Society of America A, 1998, 15(8):2059-2065.
[10] Ren N, Levoy M, Bredif M, et al. Light Field Photography with a Hand-Held Plenopic Camera[J]. Tech. Rep. CSTR Stanford Computer Science. 2005.
[11] R. Ng, “Digital light field photography”, PhD. Thesis, Stanford University, 2006.
[12] https://illum.lytro.com/
[13] www.raytrix.de
[14] Raytrix, “Digital imaging system for synthesizing an image using data recorded with a plenoptic camera,” European Patent EP09005628.4 (April 2009).
[15] Perwass C, Wietzke L. Single lens 3D-camera with extended depth-of-field[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2012.
[16] Heinze C, Spyropoulos S, Hussmann S, et al. Automated Robust Metric Calibration Algorithm for Multifocus Plenoptic Cameras[J]. IEEE Transactions on Instrumentation & Measurement, 2016, 65(5):1197-1205.
[17] Georgeiv T, Zheng K C, Curless B, et al. Spatio-angular resolution tradeoffs in integral photography[C]// Eurographics Symposium on Rendering Techniques, Nicosia, Cyprus. DBLP, 2006:263-272.
[18] Georgeiv T, Intwala C. Light Field Camera Design for Integral View Photography[J]. Adobe Technical Report, 2008.
[19] Lumsdaine A, Georgiev, T, Full resolution lightfield rendering, Adobe Technical Report, 2008.
[20] Yang J C, Everett M, Buehler C, et al. A real-time distributed light field camera[C]// Eurographics Workshop on Rendering. Eurographics Association, 2002:77-86.
[21] Wilburn B S, Smulski M, Lee K, et al. The Light field video camera[J]. Proceedings of SPIE - The International Society for Optical Engineering, 2001, 2002:29--36.
[22] Wilburn B, Joshi N, Vaish V, et al. High-Speed Videography Using a Dense Camera Array[C]// Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on. IEEE, 2004:II-294-II-301 Vol.2.
[23] Wilburn B, Joshi N, Vaish V, et al. High performance imaging using large camera arrays[J]. Acm Transactions on Graphics, 2005, 24(3):765-776.
[24] Cao X, Geng Z, Li T. Dictionary-based light field acquisition using sparse camera array[J]. Optics Express, 2014, 22(20):24081-24095.
[25] Venkataraman K, Lelescu D, Duparr, et al. PiCam : an ultra-thin high performance monolithic camera array[J]. Acm Transactions on Graphics, 2013, 32(6):166.
[26] Tanida J, Kumagai T, Yamada K, et al. Thin Observation Module by Bound Optics (TOMBO): Concept and Experimental Verification[J]. Applied Optics, 2001, 40(11):1806.
[27] Baker S, Kanade T. Limits on Super-Resolution and How to Break Them[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 24(9):1167-1183.
[28] Bishop T E, Zanetti S, Favaro P. Light field superresolution[C]// IEEE International Conference on Computational Photography. IEEE, 2009:1-9.
[29] Georgiev T, Chunev G, Lumsdaine A. Superresolution with the focused plenoptic camera[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2011:78730X-78730X-13.
[30] Wanner S, Goldluecke B. Spatial and Angular Variational Super-Resolution of 4D Light Fields[M]// Computer Vision – ECCV 2012. Springer Berlin Heidelberg, 608-621.
[31] Liang C K, Lin T H, Wong B Y, et al. Programmable aperture photography: Multiplexed light field acquisition[J]. Acm Transactions on Graphics, 2008, 27(3):55.
[32] Levin A, Fergus R, Durand F, et al. Image and depth from a conventional camera with a coded aperture[C]// ACM SIGGRAPH. ACM, 2007:70.
[33] Veeraraghavan A, Raskar R, Agrawal A, et al. Dappled photography: mask enhanced cameras for heterodyned light fields and coded aperture refocusing[C]// SIGGRAPH. 2007:69.
[34] Veeraraghavan A, Reddy D, Raskar R. Coded Strobing Photography: Compressive Sensing of High Speed Periodic Videos[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2011, 33(4):671-686.
[35] Marwah K, Wetzstein G, Bando Y, et al. Compressive light field photography using overcomplete dictionaries and optimized projections[J]. Acm Transactions on Graphics, 2013, 32(4):1-12.
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。