分享
CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识
输入“/”快速插入内容
CVPR最佳论文候选 | NeRF新突破,用启发式引导分割去除瞬态干扰物,无需额外先验知识
2024年8月12日修改
机器之心|
阅读原文
转载请联系原作者取得授权
论文第一作者为中山大学计算机学院研二硕士生陈家豪,研究方向为神经渲染和三维重建,导师为李冠彬教授。该论文是他的第一个工作。论文通讯作者为中山大学计算机学院、人机物智能融合实验室李冠彬教授,博士生导师,国家优秀青年基金获得者。团队主要研究领域为视觉感知、场景建模、理解与生成。迄今为止累计发表 CCF A 类 / 中科院一区论文 150 余篇,Google Scholar 引用超过 12000 次,曾获得吴文俊人工智能优秀青年奖等荣誉。
自被提出以来,神经辐射场(Neural Radiance Fields, NeRF)因其在新视角合成及三维重建中的出色表现而受到极大关注。
虽然大量工作都在尝试改进 NeRF 的渲染质量或运行速度,但一个现实的问题很少被人提及:
如果待建模场景中出现了意想不到的瞬态干扰物,我们应该如何消除它们对 NeRF 造成的影响
?
本文中,来自中山大学、卡迪夫大学、宾夕法尼亚大学和思谋科技的研究人员对此展开了深入研究,并提出了一种解决该问题的新颖范式。
通过总结现有方法的优势缺陷、拓宽已有技术的应用思路,该方法不仅可以
在各类场景中准确区分静瞬态元素、提高 NeRF 的渲染质量
,还入围了 CVPR 2024 最佳论文候选。
•
论文链接:
https://arxiv.org/abs/2403.17537
•
项目链接:
https://www.sysu-hcp.net/projects/cv/132.html
•
让我们一起来了解下这项工作。
背景介绍
新视角合成是计算机视觉和图形学的一个重要任务,算法模型需要利用给定的多视角图像及相机位姿来生成目标位姿对应的图像。NeRF 在该任务上取得了重要突破,但其有效性与静态场景的假设有关。
具体来说,NeRF 要求待建模场景在拍摄过程中保持静止、多视角图像内容必须一致。在现实中,我们很难满足这种要求,例如在户外拍摄时场景以外的车辆或路人可能会在镜头中随机出现移动,在室内拍摄时某个物体或阴影会不经意间遮挡镜头。我们把这类场景以外的表现出运动或不一致的元素称为瞬态干扰物(Transient Distractors)。如果我们不能消除它们,它们会给 NeRF 的渲染结果带来伪影。
瞬态干扰物(黄色方框)的存在会导致大量伪影。
目前解决瞬态干扰物问题的方法大致可分为两种。
第一种方法使用语义分割等已有分割模型显式地得到与干扰物有关的掩膜,然后在训练 NeRF 时屏蔽对应像素
。虽然这类方法可以得到精确的分割结果,但它们并不通用。这是因为我们需要提前得知与干扰物有关的先验知识(如物体类别、初始掩膜等)、并且模型可以识别这些干扰物。
与第一种方法不同,
第二种方法在训练 NeRF 时使用启发式算法隐式地处理瞬态干扰物,不要求先验知识
。虽然这类方法更加通用,但它们因设计复杂性和高度不适定性而无法准确分离瞬态干扰物和静态场景元素。例如,由于瞬态像素对应的颜色纹理在不同视角下不一致,在训练 NeRF 时该像素的预测值和真值之间的颜色残差往往大于静态像素的残差。然而,场景中的高频静态细节也会因难以拟合而有过大的残差,因此一些通过设置残差阈值来去除瞬态干扰物的方法很容易丢失高频静态细节。