您現在的位置是:首頁 > 足球

「精華文稿」基於NeRF的三維內容生成

  • 由 深藍學院 發表于 足球
  • 2022-11-21
簡介張博在最後講解了 IRON 和 ARF,ARF是剛剛中的 ECCV 2022,目前 arxiv 已經可以看到,Meta 也在近期發表了一篇非常類似的工作(SNeRF: Stylized Neural Implicit Representat

mip影象是什麼意思

分享嘉賓 | 張凱

文稿整理 | 谷溢

第一講講座涉及的內容比較多, 包含了以下幾篇工作:

Papers and resources

Mildenhall et al。ECCV 2020。 NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Zhang et al。ArXiv 2020。 NeRF++: Analyzing and Improving Neural Radiance Fields

Barron et al。CVPR 2021。Mip-NeRF: A Multiscale Representation for Anti Aliasing Neural Radiance Fields

Zhang et al。CVPR 2022。IRON: Inverse Rendering by Optimizing Neural SDFs and Materials from Photometric lmages

Zhang et al。 ECCV 2022。ARF: Artistic Radiance Fields

Awesome NeRF:

https://github。com/y

/awesome-NeRF

若能做好三維內容生成,我們可以做許多酷炫很有意義的事情,具體可以觀看公開課的demo。

那麼如何產生這些三維內容呢?

以往的方法會需要一些專業人員透過專業軟體進行一系列的創作,比如 Blender,這個軟體非常強大,在創作好3d內容之後,可以對給定視角進行渲染,當然缺點就是創作耗時且複雜。

所以能不能把這樣的過程做的儘可能的自動化,減少開銷,並且做到儘可能的真實?這是我們想要解決的主要問題。

基於影象的三維內容生成就是致力於此。

「精華文稿」基於NeRF的三維內容生成

(圖1 逆渲染過程)

可以看到,逆渲染的過程就是從影象獲取三維內容的過程。在有了三維內容之後,我們就可以渲染其他視角的影象,甚至可以對三維內容進行編輯。這是非常 promising 的。

NeRF的誕生,給了我們足夠大的想象空間去做這件事。

關於 NeRF 的介紹和教程已經有很多很多了,初學者我們建議大家將 NeRF 原文和 NeRF++ 一起看,這裡我們只分析 NeRF 為什麼會如此成功:

1、Soft Geometry

當你訓練好一個 NeRF 時,你會發現你只是知道場景或者物體大概的幾何資訊,而不是傳統意義上十分精確的幾何資訊。這個幾何資訊是隨著訓練過程,一點一點得到的,相比傳統的渲染方法,在幾何複雜的場景相對容易失效,NeRF 並不依賴於精確的幾何資訊,這給了我們很大的想象空間。如果你接觸多一些 NeRF 相關的文章後你會發現,有些工作甚至想用 NeRF 來取代點雲地圖。當然你也要區別一些概念,什麼是幾何資訊以及什麼是顯示錶達,在基礎部分我們不細緻探討這些概念。

2、Fourier features fixes the spectral bias of MLPs

很早就有相關內容的文章,神經網路更傾向於學習訊號中低頻的內容,這使得沒有 Fourier features 的 NeRF 的渲染結果十分模糊,在這方面有兩篇經典的文章幾乎同時提出,用來學習高頻資訊,分別是 SIREN 和 Fourier features。 後續也有許多改進但是不離本質,只是對同一問題的不同方法而已。

3、NeRF 獨特的網路結構以及很多特有的性質。

首先說性質,因為是函式,所以連續。因為是用網路引數來編碼場景,所以緊緻。NeRF++ 也提出了一個很有意思的問題,就是為什麼 NeRF 能克服 SHAPE-RADIANCE AMBIGUITY。這個問題的意思是,為什麼 NeRF 可以很好的泛化到新的視角,理論上存在這樣的解使得 NeRF 得到的模型只對訓練視角表現好,在新視角上的表現很差,即過擬合,這樣的解就存在形狀和輻射場的奇異性。當然解釋是 NeRF 特有的網路結構具有一定正則化能力,使其避免收斂到更為複雜的解空間上面。

「精華文稿」基於NeRF的三維內容生成

(圖2)

至此,我們就對 NeRF 有了一個概括性的分析。

另外一個方面許多同學問的比較多的就是,

怎樣做 NeRF 相關的 research

,接著張博的報告,簡單為大家分析一下。

其實 NeRF 並不難學,但是需要大家有一定 3D 視覺的基礎。其次就是發現問題的洞察力,你會發現公開課的幾講嘉賓都是找到了一個清晰的問題,從而發了很好的文章。NeRF++ 一方面分析了 NeRF 為什麼成功,另一方面找到了一個 NeRF 沒有解決的問題,那就是拍攝方式的問題。

初學者做 NeRF 一定要搞清楚我們說的拍攝方式

是指什麼:

「精華文稿」基於NeRF的三維內容生成

(圖3 拍攝方式)

圖3為 Peter Hedman 博士論文插圖。原版 NeRF 只用了 Forward-facing 和 360 outward-facing 兩種方式拍攝,因此留給張博的機會來了。張博在剩下兩種拍攝方式種選擇了 360 Inward-facing 做了自己的研究課題,於是誕生了 NeRF++。

其實就是一種很簡單的引數化方式,將“無限遠”的點變成 computable 的點,如果你熟悉 NeRF 的話你會發現這是和 NDC 座標引數化類似的方法,但是他非常有效。重點在於這是一個明確的問題。

另一個問題我們用 Mip-NeRF 來介紹。

Mip-NeRF 是 ICCV 2021 Best Paper Honorable Mention 獲得者,解決的是一個 Anti-Aliasing,也就是我們常說的

抗鋸齒問題

舉個例子就是,你把一張影象一直放大就會發現大部分邊緣和紋理豐富的地方會出現鋸齒狀,對於

NeRF 而言,訓練的解析度都是一樣的,測試也是一樣的,如果不一樣呢?

此時

NeRF 渲染的結果會出現嚴重的鋸齒。

「精華文稿」基於NeRF的三維內容生成

(圖4 不同解析度測試結果對比)

比如這張圖第一行,

用相同解析度訓練和測試,NeRF 的效果不會有任何異常

。但是到了第二行就出現問題了,

如果測試的解析度降低,會出現明顯的鋸齒

一個簡單的方法是使用多解析度影象進行訓練,其實就是對空間進行不同頻率的取樣,但是結果還是不夠好,並且單解析度的結果會下降,這樣的取捨顯然是不划算的。那麼問題就來了,是否可以使用單解析度訓練,在任意解析度下推理都能得到理想的結果呢。Mip-NeRF 就是解決這一問題的。

Mip-NeRF 其實對於新手來說並不是很友好,方法可能不是那麼好懂,但是我們希望借這篇文章為大家來介紹如何找問題,如何定義問題。至少在我接觸 NeRF 是時候,我沒想過用其他解析度去合成新視角下的影象。

對 Mip-NeRF 能看懂的同學,建議立刻追 Mip-NeRF 360 (CVPR 2022)。 就像追小說電視劇一樣,你會發現許多有意思的故事。

張博在最後講解了

IRON 和 ARF,ARF

是剛剛中的 ECCV 2022,目前 arxiv 已經可以看到,Meta 也在近期發表了一篇非常類似的工作(SNeRF: Stylized Neural Implicit Representations for 3D Scenes),感興趣的大家可以自行瀏覽。可以看到,editing 是兵家必爭之地了。

Top