CVPR 2025 | 单张图片生成物理真实的可控视频

CVPR 2025 | 单张图片生成物理真实的可控视频

 

文章摘要


【关 键 词】 三维重建物理仿真单图输入动态模拟材质优化

PhysGen3D 是由清华大学、伊利诺伊大学香槟分校和哥伦比亚大学的研究团队提出的一个创新框架,旨在从单张静态图像中构建可交互的物理3D世界。该框架通过整合几何重建、物理推理与仿真、真实感渲染等技术,实现了对静态图像中物体的三维重建、物理属性估计和用户驱动的动态模拟这一技术突破了现有图像到视频生成模型的局限,在物理合理性、用户控制灵活性和渲染质量上取得了显著进展。

研究动机源于人类对物理世界的直觉推演能力与当前AI生成技术之间的差距。尽管基于扩散模型的图像转视频(I2V)技术能够生成逼真的视觉效果,但它们缺乏物理规律约束;而物理数字孪生技术虽然能精确模拟交互,却受限于多视角数据采集的严苛要求。PhysGen3D 通过融合视觉大模型的几何理解能力与物质点法(MPM)的物理仿真引擎,仅凭单张图像即可构建可交互的3D数字孪生场景。这一方法不仅让用户能自由设定初速度、材质属性等物理参数,更通过物理约束保证动态演化的真实性,在虚拟世界中重建符合直觉的“因果律”。

在技术实现上,PhysGen3D 采用了多模态协同推理,突破了几何重建、位姿估计、物理和渲染参数优化三大核心技术瓶颈。首先,通过实例感知分割和三维几何生成,系统能够从单张图像中重建出物体的3D模型。接着,通过物理约束的位姿估计和物理参数推理,系统能够精确对齐物体姿态并推断出物体的物理属性。最后,通过物理仿真引擎和动态渲染合成,系统能够生成具有真实运动和视觉表现的视频。

实验结果表明,PhysGen3D 在物理真实感、照片真实感和语义一致性等指标上均显著优于现有的商业模型。特别是在物理合理性维度,PhysGen3D 领先开源模型达37.5%,并且在运动平滑度与成像质量上均达到SOTA水平。此外,系统还支持动态调控和场景编辑,用户可以通过调整物理参数或替换场景中的物体,生成多样化的动态效果。

尽管PhysGen3D 在物体为主的图片和简单场景中表现出色,但在处理复杂几何关系与多重交互的全局场景重建时仍存在理论瓶颈。未来的研究有望在复杂场景重建、多物体交互等方向取得突破,进一步推动数字孪生技术的发展。总体而言,PhysGen3D 为连接计算机视觉与物理仿真开辟了新路径,使AI生成的动态内容真正扎根于物理现实的土壤。

原文和模型


【原文链接】 阅读原文 [ 3787字 | 16分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...