新视角合成与NeRF技术简介

近期的研究总结显示,NeRF技术在新视角合成任务方面越来越受关注。新视角合成是指通过给定源图像、源姿态和目标姿态来生成目标姿态对应的图片,这项技术在3D重建、AR/VR等领域有广泛的应用。

NeRF技术简介

NeRF技术,全称为Neural Radiance Fields(神经辐射场),是一种用于生成逼真三维场景的方法。它基于神经网络模型,可以从有限数量的二维图像中推断出场景的三维表示。

NeRF技术的核心思想是将场景中每个点的颜色和密度建模为神经网络的输出。NeRF技术相当于传统图形学中体数据渲染的光线投影法(RayCasting)的逆过程,通过神经网络从2D投影结果逆推体数据,再从推算的体数据返回新视角的2D投影结果。

如图所示,统图形学中体数据渲染的光线投影法(RayCasting),是沿着光线射入路径将经过的体素的RGB值和透明度值叠加,最终计算出该光线投影点的值。而NeRF输入的五个维度的数据:摄影机的位置和角度,通过神经网络推算体素数据,然后输出新角度下的光线投影结果。

通过训练这个神经网络,我们可以生成新的视角和观察角度下的场景图像。NeRF技术的独特之处在于它不仅可以生成高质量的图像,还可以生成场景的深度信息。这使得NeRF在虚拟现实、增强现实、计算机视觉和计算机图形学等领域具有广泛的应用。

NeRF技术的优势

NeRF相对于传统的GAN(生成对抗网络)有以下几个优势:

  1. 精细的几何和纹理细节:NeRF可以捕捉到场景中细微的几何和纹理细节,生成逼真的图像。传统的GAN在处理三维场景时通常会有一定的限制,难以捕捉到场景的细节。
  2. 全局一致性:NeRF可以对整个场景进行全局一致性建模,而传统的GAN在生成图像时通常是逐像素或逐区域生成,很难保证全局一致性。
  3. 精确的深度信息:NeRF可以生成场景的深度信息,这对于虚拟现实和增强现实等应用非常重要。传统的GAN通常只能生成图像,而无法提供精确的深度信息。
  4. 高质量的图像合成:NeRF可以生成高质量、逼真的图像,而传统的GAN在生成图像时通常存在模糊、失真等问题。
  5. 可控的视角合成:NeRF可以根据给定的视角合成对应的图像,可以灵活地生成不同视角下的图像,而传统的GAN对于特定视角的图像合成难度较大。

NeRF的主要研究热点

NERF技术本质是三维重建任务上的算法突破,同时具备高真实感重建,设备要求低等优点,这令其有别于传统的GAN方法,有着更加广阔的发展空间。所以自2020年NeRF技术出现以来,至今研究火热,相关作品层出不穷。

在过去的一到两年里,NeRF的研究热点主要集中在以下几个方向:(1)质量,例如mip-NeRF;(2)训练及推理速度,例如instant NGP;(3)大场景,例如block-NeRF;(4)动态场景,例如neural body;(5)编辑,例如NeRF-Editing。

以上方面基本上都在解决一些通用问题,而实际应用问题还有许多坑要填。这些实际应用问题大致可以分为几类:

  1. 面向实际场景。目前的研究主要面向物体数据集,尽管已经有了block-nerf等工作,但对于动态物体渲染、大场景快速训练、高分辨率、光照等问题仍未完全解决。
  2. 面向实际采集条件。实际的采集条件往往是位姿非常稀疏的,甚至只有一张图,同时可能有不同时间、天气、条件、尺度等各种约束。尽管已经有了sinnerf、psnerf、BungeeNeRF等工作,但对于模糊等问题仍无法像人一样利用鲜艳进行补充。
  3. 面向实际应用条件。实际的渲染条件需要是可编辑的,例如光照、阴影等。同时还需要在手机上进行渲染甚至训练,以便适应各种可视化场景(例如地图)和创作需求(例如抖音特效)。这几个方面仍需要改进。
  4. 面向更多应用。创作是一个重要的应用领域,例如多模型NeRF,结合以文生图、Stable Diffusion等技术,能否实现2D-3D的生成,并加入时间维度,生成4D的短视频效果。
  5. 面向多任务联合。基于NeRF的技术与语义分割、实例分割、全景分割、目标检测、分类、三维重建等技术结合,可以探索NeRF技术在数据生成、多视角联合优化等方面的效果。

总的来说,NeRF接下来能够取得较好成果的地方更多集中在解决更实际条件下的问题,以及基于NeRF的应用和任务的延伸。根据目前的情况推测,NeRF肯定会继续保持火爆一段时间,并在计算机视觉和计算机图形学等顶级会议上发表大量文章。

知乎上搜索到的一些NeRF新技术的科普文章
知乎上搜索到的一些NeRF新技术的科普文章

参考资料