Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

AIGC动态1天前发布 QbitAI
74 0 0
Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

 

文章摘要


【关 键 词】 视频生成运动一致性DiT模型光流技术内部引导

Meta GenAI团队提出的VideoJAM框架通过技术创新显著提升了视频生成中的运动一致性该框架基于扩散变换器(DiT)架构,在动态效果上超越了Sora、Gen3等主流模型,尤其在处理舞蹈、倒立等复杂动作时展现出接近真实的连贯性。实验数据显示,应用VideoJAM后,4B和30B规模DiT模型的运动质量分别提升19.67%和4.88%,在多项指标中超过对比模型。

VideoJAM的核心突破在于训练阶段引入的联合外观-运动表示机制。通过输入投影层将外观特征与运动特征融合为联合潜在表示,再经输出投影层分别解码视频帧和运动预测。运动信息采用光流技术处理,将像素位移转化为RGB格式的色调与亮度参数,使模型无需额外编码器即可解析动态信息。这种设计既保留了原始视频生成流程,又实现了运动信息的有效嵌入。

推理阶段的内部引导机制进一步强化了动态一致性。模型通过实时分析自身生成的运动预测数据,在粗粒度阶段(前50%生成步骤)调整整体运动方向,在细化阶段优化物理交互细节。消融实验证实,光流表示与内部引导的结合是提升动作连贯性的关键,使模型能自主修正生成过程中的动态偏差。

在具体应用场景中,VideoJAM展现出多维度优势。吹灭蜡烛场景精确模拟火焰颤动与白烟扩散,书法生成实现笔触与字迹同步,史莱姆捏合过程呈现流体力学特性,杂技抛球动作则严格遵循抛物线轨迹。这些案例验证了框架在复杂物理交互中的有效性,其生成效果被评价为”第一眼难辨真伪”。

技术实现层面,VideoJAM展现出良好的兼容性与扩展性。无需额外训练数据或模型缩放即可适配不同规模的DiT架构,这为现有视频生成系统的升级提供了便捷路径。研究团队公开的论文与项目资料显示,该方法已通过严格定量评估,在运动质量、文本对齐度等核心指标上建立新基准。随着技术迭代,视频生成领域或将快速逼近真实影像的生成水平。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1261字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-r1
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...