丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給金紅
發(fā)送

0

PerceptIn 張哲:SLAM剛剛開始的未來之風起獅城|ICRA 2017

導語:本文為PerceptIn聯合創(chuàng)始人兼CEO張哲參加今年5月29日至6月3在新加坡舉行的ICRA大會關于各個種類的SLAM及相關研究應用的看法和思考。

雷鋒網按:本文為PerceptIn聯合創(chuàng)始人兼CEO張哲參加今年5月29日至6月3在新加坡舉行的ICRA大會的感想,主要分享作者關于各個種類的SLAM及相關研究應用的看法和思考。

張哲,紐約州立大學機器人方向博士,清華大學自動化系本科。研發(fā)方向:地圖重建、位置跟蹤、機器人自主避障導航、設備端和云端的算法優(yōu)化。2009-2014年在微軟,2014-2016年初在Magic Leap工作。 

PerceptIn 張哲:SLAM剛剛開始的未來之風起獅城|ICRA 2017

右一為PerceptIn CEO張哲,正在為參會人員演示給開發(fā)者用的視覺模組

2017年的ICRA大會 (International Conference on Robotics and Automation) 6月初在新加坡剛剛結束。ICRA作為國際機器人頂級學術會議之一,從1984年開始到今年已經是第34個年頭?,F在有意愿的申辦方要提前3年申請,即使被IEEE接受申請成為主辦方,都需要提前兩年每年學習當屆主辦方的經驗教訓。在新加坡會議現場,專門有2018澳大利亞布里斯班和2019加拿大蒙特利爾的宣傳展臺。這次的ICRA是機器人學術屆和工業(yè)界的一次盛會,不但來自各大洲的學校和研究機構的教授、學生、研究員們來演講或學習最新的成果,工業(yè)界機器人和“泛機器人”相關的公司也紛紛前來參展和學習。機器人研究的方向和種類繁多,但計算機視覺,SLAM (同步定位和建圖),建圖,空中機器人 (泛指各類無人機),距離感知,RGB-D感知這幾個話題的track加在一起已經占到所有track的一半左右。筆者根據這次的大會所見所聞和自己在機器人領域十多年 (尤其是最近一年多在PerceptIn全面推進軟硬件一體化智能感知方案的產品化落地) 的切身感受,在這里和大家分享各個種類的SLAM及相關研究應用的看法和思考。

 本文純屬個人觀點,僅供大家參考。SLAM技術基本知識的詳細介紹請參見筆者將近一年前的博客文章

稀疏SLAM

稀疏SLAM指的是前端用從圖像提取來的較稀疏的特征點而不是從深度攝像頭來的稠密點云,或不提取特征點直接試圖計算深度的直接法 (后面有專門的討論)。稀疏SLAM在理論和實現上已經趨于成熟,借助六軸陀螺儀imu (inertial measurement unit) 的視覺慣導融合的緊耦合方法已經成為標配。在幾何方面,稀疏SLAM從前端到后端已經做的非常細致,以致于大量算法微調的細節(jié)出現在論文里面,在這里舉一些比較典型的例子:

  • 特征點從哪里來的問題分為了KLT (Kanade-Lucas-Tomasi) pipeline和FREAK (Fast Retina Keypoint) pipeline: 前者的原理是基于亮度恒定、時間連續(xù)、空間一致來對像素做跟蹤匹配,這種方法幾何信息算的好、跟蹤時間長,但是會飄,后者相對不飄但跟蹤時間短,其原因是FREAK的DoG (Difference of Gaussian) 極值在相鄰幀重復性差。

  • 特征點被如何用的問題分為了SLAM特征點和MSCKF特征點:SLAM特征點被加入狀態(tài)向量并被更新,MSCKF特征點在測量的相關公式中被忽視 (marginalize) 掉來生成位姿之間的約束。這樣做的目的在于既保持了準確性又照顧到了處理時間不會太長。

  • 諸如此類還有很多如何用imu來選好的特征點,如何在后端優(yōu)化中融合imu帶來的約束,sliding window有多長,哪部分用NEON/GPU實現了,標定里面哪個參數最重要,預積分的處理在還算合理的情況怎么能更合理等等。

然而即使稀疏SLAM算法日趨成熟,但對硬件的依賴度反而變大,深層次的原因是因為算法摳的非常非常細,對硬件的要求也都是非常細致并明確的,比如大家偏好大視角鏡頭但大視角的邊界畸變最嚴重,到底好不好用、怎么用、用什么模型;比如相機和imu的同步最好是確定的硬件同步,不但希望能保證順序和微秒級的精確,還希望能在每幀圖的那一剎那正好有一幀imu這樣預積分才最準確;比如需要看的遠又能拿到準確的尺度,那必須基線拉大,那么拉到多大呢,著名的做VINS (Visual Inertial Navigation System) 的明尼蘇達大學自己搭的硬件是26厘米基線的雙目配上165度的大視角鏡頭,堪稱是跟蹤神器;再比如賓州大學這次在ICRA發(fā)布的供SLAM跑分的數據集,采集數據用的是自己搭的一套硬件,由兩個第二代Tango平板,三個GoPro相機,和一個VI Sensor (做這個的公司早已被GoPro收購),再加上AprilTags的marker跟蹤,融合后的位姿信息作為真值。PerceptIn的第一代雙目慣導模組在大會的展臺區(qū)引來大家爭相詢問并購買,可見SLAM和各類基于計算機視覺的研究人員對一個好用的硬件需求非常大。

稠密SLAM

稠密SLAM重建目前也相對比較成熟,從最開始的KinectFusion (TSDF數據結構 + ICP) 到后來的InfiniTAM (用哈希表來索引很稀疏的voxel), ElasticFusion (用surfel點表示模型并用非剛性的圖結構), DynamicFusion (引入了體翹曲場這樣深度數據通過體翹曲場的變換后才能融入到TSDF數據結構中去來完成有非剛性物體的動態(tài)場景重建) 都做的比較成熟。工業(yè)界實現非常好的是微軟的HoloLens,在臺積電的24核DSP上把mesh simplification這些操作都搞了上去。

這屆ICRA上稠密SLAM重建這部分,很明顯看出大家仍然很喜歡基本的幾何圖元,比如平面,比如法向量,這里不一一贅述。著重說一下讓筆者感到驚喜的是很基礎但非常重要的:給地圖的數據結構仍然有很大程度的創(chuàng)新,比如這篇“SkiMap: An Efficient Mapping Framework for Robot Navigation”,這個東西的本質是“Tree of SkipLists” (筆者不知道該翻譯為跳表樹還是樹跳表),3D空間XYZ各一層,前兩層的每個節(jié)點其實就是一個指針指向下一層,最后那層才是voxel有真正的數據,而各層有個隱藏層是跳表,保證了查找插入刪除都是O(logn)。這個數據結構對機器人非常實用,尤其是不同高度下的快速深度檢索和障礙物檢測。

基于事件相機的SLAM

一句話來解釋event camera (暫且直譯為事件相機) 的原理就是事件相機的每一個像素都在獨立異步的感知接收的光強變化。對每個像素來說,“事件”的本質就是變亮或變暗,有“事件”發(fā)生才有輸出,所以很自然的沒有了“幀率”的概念,功耗和帶寬理論上也會很低。另一方面,事件相機對亮度變化非常敏感,動態(tài)范圍能到120 dB,甚至在對快速旋轉等劇烈運動的響應比imu還要好。這種新的傳感器自然被很多做位置跟蹤的研究者們所青睞,ICRA上尤其是歐洲的幾個有名的實驗室都在玩。然而從工業(yè)界相對實際的角度看,這個相機有以下三個致命點如果不解決那么就無法大量普及: 

  • 1) 貴,現在的價格是幾千美元,現場有人說量產了就能一美元,這顯然沒法讓人信服,CMOS已經應用這么多年現在一個global shutter的CMOS也不可能只要一美元,雖然筆者又專門到做事件相機的公司展臺去詳細聊了價格的問題,得到的答案是未來兩三年內隨著量產是有可能降到$200-$300的; 

  • 2) 大,因為每個像素的電路十分復雜,而每個像素本身的物理大小是20微米左右的,相比于很多CMOS,6μm x 6μm都算很大的了,那么就直接導致事件相機的物理尺寸很大但像素其實很低 (比如128 x 128); 

  • 3) 少,“少”是說信息維度信息量不夠,事件相機的事件一般都在明暗分界線處,所以現場有人就管它叫“edge detector”,但在計算機視覺整體尤其是結合深度學習后都在往上層走的大趨勢下,只有一個事件相機是遠遠不夠的,這也是為什么事件相機的廠家也在整合imu和傳統(tǒng)相機做在一起,但這樣的話成本更是居高不下。

基于直接法的SLAM

一句話來解釋direct method (直接法) 的原理就是在默認環(huán)境亮度不變 (brightness consistency assumption) 的前提下,對每個像素 (DTAM) 或感興趣的像素 (Semi-Dense LSD SLAM) 的深度通過inverse depth的表達進行提取,并不斷優(yōu)化來建立相對稠密的地圖,同時希望實現相對更穩(wěn)定的位置跟蹤。相比于研究了20多年的基于特征點的方法,直接法比較新,只有五六年的歷史,下面是ICRA上和直接法有關的幾篇論文,主要都是通過融合額外的傳感器或方法進行對原有直接法的改進。

  • “Direct Visual-Inertial Navigation with Analytical Preintegration”: 主要講的是連續(xù)時間意義下的imu kinematic model的閉式解。

  • “Direct Visual Odometry in Low Light Using Binary Descriptors”: 不再基于亮度不變的假設,改用基于二進制特征描述不變的假設。 

  • “Direct Monocular Odometry Using Points and Lines”: 用edge把基于特征點和基于直接法的兩種方法結合起來。

  • “Illumination Change Robustness in Direct Visual SLAM”: Census效果最好。

那么直接法到底能否大范圍普及呢?筆者從工業(yè)界“比較俗比較短視比較勢利”的角度來看,覺得直接法兩邊不靠非常尷尬: 1) 直接法沒有證明在位置跟蹤方面比前端用傳統(tǒng)特征點的基于濾波 (MSCKF, SR-ISWF) 或者基于優(yōu)化 (OKVIS, VINS-Mono) 要有優(yōu)勢,如果環(huán)境惡劣是由于光線變化,那么直接法的基于環(huán)境亮度不變的假設也不成立,如果環(huán)境惡劣是由于超級劇烈的高速運動,那么直接法也是得通過imu融合才能爭取不跟丟; 2) 直接法的直接好處是地圖相對稠密,但相對稠密是針對于基于特征點的稀疏而言,如果這個地圖是為了做跟蹤,那么基于特征點的方法已經證明可以做得很好了,如果是為了3D重建,那么大可以用一個深度相機,如果是被動雙目的話,被動雙目還原出稠密深度本身也在大幅度進步。所以筆者認為直接法夠新穎,但新穎的不夠強大,或者說不夠強大到有落地價值。

這次ICRA大會的SLAM還有一個非常大的方向是語義SLAM還有深度學習,試圖從各個方面幫助SLAM的幾何部分。這個話題非常有趣也非常大,限于篇幅不多贅述。大方向上學術界SLAM的相對成熟,必然伴隨著工業(yè)界很大量級的產品中集成達到產品化程度的SLAM方案,那么在工業(yè)界SLAM未來走勢會是什么樣子呢?筆者有以下幾點看法:

  •  1) SLAM太重要會導致大廠都想擁有,但有能力搞高質量全套的就那么幾家,這幾家也能搞到業(yè)界最好,比如微軟HoloLens,谷歌Tango,蘋果ARKit,注意即使實力強大到這幾家也都緊密配合自己的硬件,也沒法給出一個普適方案;

  • 2) 會有很多出貨量極大但優(yōu)勢不在算法端或者說不需要在算法和軟件的公司,比如各大掃地機廠商,這些廠商只需要在創(chuàng)業(yè)公司里面挑一家方案成熟度最高、資金儲備最充足、人才儲備最完備、最容易合作的方案廠商合作就好;

  • 3) 留給國內外的SLAM初創(chuàng)公司做單點技術的空間不大,這個現象不只出現在SLAM上,也會出現在任何一個技術的產品化道路上,然而在SLAM和“泛感知”這一塊相對比較特殊的是需要SLAM和智能感知的產品和方向太多,而感知對硬件的依賴又非常大,整體市場尤其每個細分領域遠遠沒有達到飽和的階段。

ICRA 2017,風起獅城,SLAM的未來已經開始。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知

分享:

編輯

雷鋒網編輯,專注新技術和商業(yè)故事報道,創(chuàng)業(yè)者或行業(yè)交流可加微信號Duras0820
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說