0
雷鋒網(wǎng)按:本文為雷鋒字幕組編譯的論文解讀短視頻,原標題Learning Category-Specific Mesh Reconstruction from Image Collections,作者為Angjoo Kanazawa。
翻譯 | 龍珂宇 字幕 | 凡江 整理 | 李逸帆 吳璇
論文標題:Learning Category-Specific Mesh Reconstruction from Image Collections
本篇介紹的《從圖像集合中學習特定類別的網(wǎng)格重建》是Angjoo Kanazawa最新論文的預印本。
Angjoo Kanazawa,加州大學伯克利分校BAIR(Berkeley AI Research)的博士后。她的論文《獅子、老虎、熊:從圖像中捕捉非剛性的3D立體形狀》、《SfSNet :“在自然情況下”學習臉部形狀、反射比、照明度》都被收錄在CVPR 2018。
一直以來,Angjoo的研究重點都是包括人類在內的動物單視圖三維重建。比如,我們如何能夠通過觀察2D圖像或視頻,來推出三維模型?
如圖所示,雖然這是一個二維的平面圖片,但我們可以大致推斷出它的3D輪廓,甚至可以想像出從另一個角度看它是什么樣的。
在這次的工作中,我們的目標就是建造一個類似的計算模型。從單張平面圖片推斷出3D模型的說法并不太準確,它僅在我們具備一只鳥長什么樣的基礎知識的情況下才可能實現(xiàn)。原來的辦法主要通過3D基準形狀來獲得這種基礎知識,要么是繪制的合成圖要么是物體的掃描圖。但不幸的是,這種掃描方法在實際上,很難用到活體對象上面,因為我們很難讓他們配合我們的掃描,所以我們試圖采用一種更自然的監(jiān)督方法——就是大量的標注圖片集合。
假設我們對于一個物體類別有大量的圖片集,但對于每一個個體都只包括一個角度,每一張圖片都被添加了一組語義描述和正確的分割蒙版。從這個圖片合集和蒙版上的標注,我們學習到一個預測器F,在給定一張新的未標注圖片時,F(xiàn)可以推斷它的3D形狀并用網(wǎng)格表示,可以推斷其觀測視角,以及其網(wǎng)格結構。通過這些推斷和預測,我們就得到了關于這個物體3D形狀的一個表示。從任何一個視角渲染這個模型,都可以把它直觀地可視化。
F是一個CNN神經(jīng)網(wǎng)絡,包括一個圖像解碼器和三個預測模塊。首先我們預測相機的觀測視角,其參數(shù)由弱透視投影變化決定。第二個輸出是物體的3D形狀,它是一個和類別有關的形變模型。我們將學習到的該類級別模型和當前輸入的預測形變相結合,然后獲得輸出的3D形狀。這樣一個類級別模型的好處在于——我們可以學習到如何關聯(lián)語義標注和網(wǎng)格的格點,同時也能從預測形狀中,獲得3D關鍵點的位置。最后,我們還可以通過一張正則形態(tài)空間中的RGB圖像表達,預測出它的紋理結構。
那么該如何,從這張二維圖片中看出,我們對紋理結構的預測呢?我們注意到,一個類別中的不同形狀其實只是平均形狀的一個形變,而其平均形狀可以被視為一個球體,其紋理可以用一張UV紋理圖片來表示,就像把一個球體展開到二維平面上。UV圖也可以被映射到球體上,然后被變化到平均形狀或者任何預測出的形狀上。所以,為了預測形狀的紋理,我們只需要預測UV圖中的顏色,所以我們通過一個CNN結構來實現(xiàn)它。我們將輸入圖片編碼后傳入CNN,這里,我們并不是直接預測,紋理圖片的像素信息,而是預測他的紋理流。
在獲得預測信息之后,我們用同樣的辦法表示出我們的目標物體,然后使得預測值更接近真實值。我們最小化預測結果和真實結果的渲染蒙版,渲染圖片和投影關鍵點之間距離。我們使用神經(jīng)網(wǎng)格渲染器,所以。所有損失函數(shù)都是可微的。同時我們也在模型中包含了一些先驗信息,如對稱性,表面的光滑性等等。
現(xiàn)在我們在測試集上向大家展示一些訓練結果,給定一張輸入圖片,我們可以推斷其在結構中的形狀,這里展示了不同視角下的結果。我們的模型也可以捕捉到不同的形狀,比如說翅膀,和不同的尾部。我們也可以使用我們的結果,將一只鳥的紋理變化到另外一只鳥。比如說,給定這兩只鳥的圖片,我們首先重建它們的結構和紋理。因為紋理圖是在正則形態(tài)空間中表示的,我們可以簡單地交換它們的紋理圖。然后把第二只鳥的紋理變化到第一只鳥身上,反之同理,即使在鳥的形狀不同的時候,我們也可以進行紋理變化的操作。比如說這里我們向大家展示一些不同測試數(shù)據(jù)上的重建結果,大家可以看到它們的360°圖片。
雷鋒網(wǎng)雷鋒網(wǎng)
視頻原址 https://www.youtube.com/watch?v=cYHQKtBLI3Q
論文原址 https://arxiv.org/pdf/1803.07549.pdf
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。