北大与密歇根大学联合提出 DG4D，几分钟生成四维内容

2024年7月9日创建

机器之心｜阅读原文

转载请联系原作者取得授权

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文作者潘亮博士目前是上海人工智能实验室的Research Scientist。此前，在2020年至2023年，他于新加坡南洋理工大学S-Lab担任Research Fellow，指导老师为刘子纬教授。他的研究重点是计算机视觉、3D点云和虚拟人类，并在顶级会议和期刊上发表了多篇论文，谷歌学术引用超过2700次。此外，他还多次担任计算机视觉和机器学习等领域顶级会议和期刊的审稿人。​

近期，商汤科技 - 南洋理工大学联合 AI 研究中心 S-Lab ，上海人工智能实验室，北京大学与密歇根大学联合提出 DreamGaussian4D（DG4D），通过结合空间变换的显式建模与静态 3D Gaussian Splatting（GS）技术实现高效四维内容生成。​

四维内容生成近来取得了显著进展，但是现有方法存在优化时间长、运动控制能力差、细节质量低等问题。DG4D 提出了一个包含两个主要模块的整体框架：1）图像到 4D GS - 我们首先使用 DreamGaussianHD 生成静态 3D GS，接着基于 HexPlane 生成基于高斯形变的动态生成；2）视频到视频纹理细化 - 我们细化生成的 UV 空间纹理映射，并通过使用预训练的图像到视频扩散模型增强其时间一致性。​

值得注意的是，DG4D 将四维内容生成的优化时间从几小时缩短到几分钟（如图 1 所示），允许视觉上控制生成的三维运动，并支持生成可以在三维引擎中真实渲染的动画网格模型。​

common.docs_name - LarkCCM_Docs_Menu_Image

•
论文名称: DreamGaussian4D: Generative 4D Gaussian Splatting​

•

主页地址: https://jiawei-ren.github.io/projects/dreamgaussian4d/

•

论文地址: https://arxiv.org/abs/2312.17142

•

Demo 地址: https://huggingface.co/spaces/jiawei011/dreamgaussian4d

图 1. DG4D 在四分半钟内可实现四维内容优化基本收敛

问题和挑战

生成模型可以极大地简化多样化数字内容（如二维图像、视频和三维景物）的生产和制作，近年来取得了显著进步。四维内容是诸如游戏、影视等诸多下游任务的重要内容形式。四维生成内容也应支持导入传统图形学渲染引擎软件（比如，Blender 或者 Unreal Engine），以接入现有图形学内容生产管线（见图 2）。​

尽管有一些研究致力于动态三维（即四维）生成，但四维景物的高效和高质量生成仍然存在挑战。近年来，越来越多的研究方法通过结合视频和三维生成模型，约束任意视角下内容外观和动作的一致性，以实现四维内容生成。​

图 2. DG4D 生成的四维内容支持导入到传统计算机图形学渲染引擎中​

北大与密歇根大学联合提出 DG4D，几分钟生成四维内容​

北大与密歇根大学联合提出 DG4D，几分钟生成四维内容