0
當下,由于水下惡劣危險的環(huán)境,海洋產(chǎn)業(yè)在發(fā)展中面臨著迫切的產(chǎn)業(yè)智能化升級需求。為了解決該類問題,將光學技術、聲學技術和 AI 算法更好的融入到海洋產(chǎn)業(yè)中,近期,一場由國家自然基金委、鵬城實驗室和湛江市人民政府聯(lián)合主辦的線上比賽「水下目標檢測算法賽」拉開了帷幕。
聲學圖像在水下目標檢測中探程遠、實用性強,針對「聲學圖像目標檢測」賽項,鵬城實驗室專門開設了 2 期在線直播課程,先后請到上海達華測繪有限公司專家李太春老師和河海大學、水下信息感知技術研究中心副主任霍冠英老師,為參賽者和算法愛好人士提供深入淺出的專業(yè)講座。
課程內(nèi)容涵蓋面廣、知識干貨豐富,其中重點講解了聲納硬件與圖像組成、聲納圖像分類、聲納圖像檢測具體算法等技術,并從解讀了海洋產(chǎn)業(yè)的發(fā)展與前景,現(xiàn)雷鋒網(wǎng)將課程內(nèi)容整理如下,并附上課程回放地址。
《2020「水下目標檢測算法賽」——聲納設備及其圖像判讀應用》:
http://www.mooc.ai/open/course/760
《2020「水下目標檢測算法賽」 ——水下聲納圖像目標識別研究》:
在海水中,由于介質(zhì)的改變,光波和無線電波衰減嚴重,傳播距離十分有限。而聲波在水中的傳播性能要好得多,可以覆蓋更廣闊的海洋領域,這也使得聲納圖像通??梢愿玫挠糜诤Q筇綔y及產(chǎn)業(yè)中。
聲納本身是英文 sonar 一詞的音譯,而 sonar 則是 sound navigation and ranging 的字頭組成,意思是聲學導航與測距。因此,聲納的也是利用聲波對水下物體進行探測和定位識別,而海洋聲納技術即用于對海洋物理參數(shù)與過程的探測和對海洋各種特定目標特性的探測。
圖 1 應用于海洋檢測的聲納技術
聲納從工作原理上,可劃分為聲納目標主動探測技術和上哪目標被動探測技術;從目標能否成像上,可劃分為成像聲納技術和非成像聲納技術;而從工作流程與功能上,可劃分為聲納目標檢測技術、聲納目標跟蹤技術、聲納目標識別技術和聲納目標定位技術。
本次比賽的數(shù)據(jù)集是由鵬城實驗室推出的當前業(yè)內(nèi)最大、最具廣泛性的聲學圖像數(shù)據(jù)集。其中所用到的聲納技術均為成像聲納技術,側(cè)掃聲納和前視聲納為采集圖像的主要設備。兩種設備主要用于探測水下靜止目標物,并給出目標的距離、方位、高度和圖像。
圖 2 聲吶硬件的基本組成主要包括:換能器(TRANSDUCER)、拖纜、信號處理器、采集終端
其中,側(cè)掃聲吶主要應用于大面積的海底地形地貌調(diào)查,包括水下位置未知目標物的搜索等。在工作時,側(cè)掃聲吶聲波的發(fā)射基陣以一定的俯仰角和左右兩個扇面向兩側(cè)的水體中發(fā)射聲波脈沖信號,工作原理如圖 3 所示。
目前,在海洋工程、海洋地質(zhì)調(diào)查、海洋地質(zhì)科學研究及海道測量中,側(cè)掃聲吶已經(jīng)得到了廣泛應用,并成為目前海洋測量及調(diào)查研究必不可少的重要手段。
圖 3 側(cè)掃聲吶工作時,聲波的發(fā)射基陣以一定的俯仰角和左右兩個扇面向兩側(cè)的水體中發(fā)射聲波脈沖信號,同時接受基陣接受回波信號并根據(jù)回波到達的時間及其強度繪制海洋環(huán)境的聲吶圖像
而前視聲納與側(cè)掃聲納工作原理類似。最大的區(qū)別在于前視聲納的聲波發(fā)射基陣,一般以一個扇面向前或者向垂直方向(向上、向下)發(fā)射脈沖信號,工作原理如圖 4 所示。因此,前視聲吶主要應用于水下航行器的導航避碰,特定目標物的掃描檢測等。
圖 4 前視聲吶工作原理圖與成像示例,聲波發(fā)射基陣以扇面發(fā)射脈沖信號
通常情況下,聲納圖像主要由 7 部分組成,包括:聲波發(fā)射源、水面反射波、水體雜波、海底反射波、水柱、目標物、陰影;除此之外,聲納圖像還可能包括一些處理得到的標記。圖 5 展示了一個經(jīng)典的聲納圖像基本組成圖示:
圖 5 聲納圖像基本組成的經(jīng)典解析圖示;其中,A 是觸發(fā)脈沖,B 是第一表面返回波,C 是水體中雜波,D 是第一海底返回波,E 是水柱(即盲區(qū)),F(xiàn) 是沉沒的漁船,G 是陰影, H 是數(shù)字通道, I 是系統(tǒng)操作設置,J 是距離標記。
而聲納設備形成圖像的過程一般分為以下幾步:設備換能器陣發(fā)出聲脈沖,并且收聽返回的回聲信號,返回的聲波由聲能轉(zhuǎn)換成電能,并且通過拖曳電纜向上傳送到海面上船的記錄顯示單元。
然后在船上顯示記錄單元,信號被處理成所需要的形式,然后發(fā)送到監(jiān)視器和記錄儀上,形成一幅記錄圖像,圖 6 則展示了該過程。
圖 6 聲納設備成像的過程;其中,圖(左)為形成的聲納圖像,圖(右)為對應的聲波圖像
如果要通過聲納圖像辨別其中的目標物,可以結合聲學陰影進行檢測。
通常情況下,深色(高亮)的回聲和白色(黑色)的陰影斑紋,表現(xiàn)出海底底床上目標的凸起和凹陷。其中:
一個目標直立在周圍平坦的環(huán)境中,它將反射一個強的回聲信號到聲吶,并且在記錄上產(chǎn)生深色(高亮)的標記;強的反射信號后面跟隨著白色(黑色)的聲學陰影,則是典型的目標凸起。
而有一個凹陷,白色(黑色)的區(qū)域出現(xiàn)深色(高亮)的區(qū)域前面,甚至穿過深色(高亮)區(qū)域,它不是真實的陰影。
圖 7 通過黑色陰影,可以辨別出目標物為駱駝
除此之外,結合一些基本的聲納圖像知識,也可以有助于準確識別目標物。其中包括:
硬質(zhì)、粗糙、凸起的水底回波較強,軟質(zhì)、平滑、凹陷的水底回波較弱。
被遮擋的水底不產(chǎn)生回波;距離越遠回波越弱。
天然地形產(chǎn)生的聲學表現(xiàn)通常是不規(guī)則形狀的圖像變化,圖像邊緣過度相對平緩,人工目標物通常表現(xiàn)為相對規(guī)則的圖像變化,圖像邊緣過度相對明顯。
合理運用聲納圖像的幾何關系,判斷目標物的大小、高度等特征。
結合聲吶設備的位置、姿態(tài)、航向等信息,可以對圖像聲吶反映出來的特征進行量測和計算。
圖 8 使用基礎聲納圖像知識進行目標物識別,通過聲納圖像的波形判別目標物的特性
目前,聲吶的工作性能除了受自身技術參數(shù)的限制之外,還受環(huán)境因素影響很大,如:聲速-深度分布、波浪、海底底質(zhì)、水深、海流等。這將導致聲波的折射、擴散、吸收、噪聲等問題。
這也導致在對聲納圖像左準確智能檢測時,將面臨噪聲干擾、灰度畸變、幾何畸變、形態(tài)多樣、樣本稀缺、混疊失真等問題。
圖 9 為同一架飛機的聲納圖像,具有形態(tài)多樣的特性
針對其中一些關于圖像去噪、圖像增強、目標分割、目標分類等問題,課程提供了相應的算法思路,可幫助實現(xiàn)改善目標檢測結果的精度:
非局部均值聲納圖像去噪
圖像去噪聲在 OCR、機器人視覺與機器視覺領域應用開發(fā)中是重要的圖像預處理手段之一,對圖像二值化與二值分析很有幫助。
但通常進行局部去噪時,往往我們會忽視邊緣處的去噪效果,而近年提出的一種新型去噪技術可以很好的解決該問題。非局部均值去噪可以采用:NL-means、BM3D、SAR-BM3D 等方法。
其中,非局部均值(NL-means)方法的基本思想是:當前像素的估計值由圖像中與它具有相似鄰域結構的像素加權平均得到,在去噪的同時,可以最大程度地保持圖像的細節(jié)特征。
其中,非局部均值迭代聲吶圖像的去噪流程為:
第一次基于含噪塊的均值約束,第二次基于第一次得到的去噪塊的結構相似度;
兩次塊匹配濾波權值采用不同距離,第一次依據(jù)瑞麗噪聲統(tǒng)計假設,第二次計算假設真值已知。
圖 10 非局部均值聲納圖像去噪示意圖
仿人眼視覺聲納圖像增強
通常,圖像增強的方法包括了:線性拉伸、Gamma 校正、直方圖據(jù)恒華、Retinex 處理、小波變換域增強等,但此類方法除了可能放大噪聲之外,還有一個局限在于參數(shù)選取部分,要求開發(fā)者有較成熟的經(jīng)驗。
因此,基于這一問題,可以使用人眼視覺方法進行處理,包括:多分辨率、多方向性、局部化、稀疏表示、對數(shù)調(diào)節(jié)等。
而恰好 Curvelet 變換能夠很好的處理多尺度、多方向、局部化等問題,因此在圖像增強部分的處理思路可以采?。?br/>
Curvelet 變換-->人眼視覺的多通道結構
自適應非線性映射-->人眼對數(shù)調(diào)節(jié)
Curvelet 重構
圖 11 圖像增強處理,從左到右分布為直方圖均衡化、Retinex 處理及仿人眼視覺圖像增強結果,可以看到第三種處理方式在圖像細節(jié)上效果更好
邊緣約束的聲納圖像目標精準分割
在聲納圖像目標檢測分割方法中,邊緣檢測法(sobel、Canny、小波模極大等)、閾值分割(Otsu、屬性直方圖等)、聚類分割(k-means、依賴分布)、MRF 模型、活動輪廓模型都是可以參考的方法。
但每個方法也都具有各自的局限,如:完整性較弱、鄰域一致性處理較差、邊緣精確性低、收斂慢等。
因此,在這個階段,可以考慮這樣的思路,如圖 12所示:
綜合邊緣信息、區(qū)域特征、平滑閱讀構造活動輪廓模型泛函,以同時提高檢測結果的準確性和魯棒性。
初始分割、局部匹配、邊緣誘導,從而加快收斂過程。
圖 12 邊緣約束的聲納圖像目標精確檢測示意圖
遷移學習下的聲納圖像目標分類識別
在目標識別部分,通常分為特征提取和分類器兩部分。目前最具區(qū)分能力的特征包括:傅里葉描繪子、鏈碼、Hu 不變矩、灰度共生矩陣、Haar 特征、Gabor 特征、LBP 特征、HOG 特征、SIFT 特征、SURF 特征等。
而對于特定的識別任務,往往篩選及調(diào)整特征及其耗時,一旦換一個識別任務之后,一切可能將需要全部重新設計。
因此,能否由機器直接從數(shù)據(jù)中學習來表示本身呢?就像人的大腦可視皮層的分級那樣,具備抽象和迭代的功能,從而對聲納圖像中的目標及其陰影,具有發(fā)現(xiàn)同類目標中深層次共性特征的能力。
由此可以考慮將深度神經(jīng)網(wǎng)絡運用到檢測算法中來,通過其多次迭代組合底層的分布式特征形成更抽象的高層表示,解決表示學習的核心問題。
然后再結合人臉識別時 CNN 的思想,將深度卷積神經(jīng)網(wǎng)絡運用到目標分類識別算法中,推薦的思路如圖 13所示。
圖 13 遷移學習下的聲納圖像目標分類識別
除了在線講座課程之外,為了更好的幫助參賽者理解水下聲吶圖像目標識別,賽方還提供了多樣的聲學圖像檢測學習資料,包括:模型代碼、baseline、優(yōu)質(zhì)論文以及經(jīng)典的學習資源。(其中,相關資源已同步至官網(wǎng)首頁,http://uodac.pcl.ac.cn/ )
同時,考慮到本次算法賽參與的開發(fā)者覆蓋群體非常廣泛,大家所關注的問題也較為分散,大賽詳情頁面也設置了討論區(qū),參賽者可以通過該加入討論群有針對性的答疑解惑。
圖 14 比賽詳情頁面,可由此進入討論區(qū)
目前,賽方也給出了一個《常見問題解答》的文檔,在遇到問題時,也可先參考文檔給出的一些解決方案。文檔地址為:https://shimo.im/docs/dQkEVzmKLVUKFnAw/read 。
值得一提的是,早在黨的「十八大」時,我國就作出了「建設海洋強國」的重大部署;這之后,十九大則在此基礎上提出了全面加快海洋強國建設的目標。近年來,習近平總書記也多次在重要場合提到海洋發(fā)展。
在 2017 年 7 月,國務院發(fā)布《關于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知》,并在海洋產(chǎn)業(yè)領域提出「研制和推廣海洋機器人「的意見,這也正貼合了海洋產(chǎn)業(yè)升級的迫切需求。
在人工智能的幫助下,海洋產(chǎn)業(yè)得以應對水下作業(yè)危險系數(shù)高、捕撈成本大、體能要求強以及環(huán)境不可控等難題,因此該產(chǎn)業(yè)也具備更高的開發(fā)潛力。
圖 15 海洋開發(fā)多樣化技術展示
由前文所介紹的多樣化技術也可以看出,在國家的大力支持下,海洋建設在技術方面也已經(jīng)取得了可喜的成果。可這當然遠遠不夠,海洋開發(fā)與建設還需要更多 AI 技術領域開發(fā)者的加入。
而本次加入「聲學圖像目標檢測賽」恰好提供了這樣的平臺。這不止是一個展示個人技術的舞臺,也是緊跟時代建設的敲門磚。如果在比賽中獲得較好的名次,該比賽所提供的高達 72 萬元的獎金池,以及進入鵬城實驗室、騰訊科技的招聘面試綠色通道,也將通通拿走!
目前,該賽項已經(jīng)吸引了眾多來自哈爾濱?程?學、中??學、中國科學院?學、浙江大學等高校學生,以及名企的算法愛好者,比賽正在如火如荼的進行中。
所以,假如你也正好從事算法工作,你也有志于在目標檢測識別、機器人、人工智能和海洋建設領域嶄露頭角,請抓住這個難得的好機會,初賽截至 4 月 11 日。
水下目標檢測算法賽(聲學圖像賽項)報名地址:
https://www.kesci.com/home/competition/5e532ac62537a0002ca859a6
雷鋒網(wǎng) 雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。