AI视频生成:Meta VideoJAM重磅发布
Meta 最新发布了 VideoJAM,在运动连贯性方面实现了 SOTA(State of the Art),其表现甚至超越了 OpenAI 的 Sora。 长期以来,视频模型在生成运动方面一直存在瓶颈,这主要是因为 AI 视频的训练目标更侧重于视觉外观,而忽略了动态表现。
Meta 与特拉维夫大学的研究人员合作开发的 VideoJAM 框架,旨在改进运动生成。该框架无需额外数据或扩展模型规模,就能有效解决视频生成模型在运动方面的难题。
研究结果表明,VideoJAM 生成的视频通过了体操图灵测试,在运动的真实性和连贯性上超越了Sora。
VideoJAM vs. Sora:运动生成效果对比
从对比图中可以看出,Sora 生成的体操动作显得僵硬和不自然,而 VideoJAM 则能生成流畅且符合人体力学的动作。
在男子抛球的视频生成中,Sora 的效果显得滑稽可笑,而 VideoJAM 生成的视频则更加真实和自然,符合物理规律。
对于转呼啦圈这类运动,Sora 无法理解其基本原理,生成的视频效果不尽人意。而 VideoJAM 能够准确地模拟转呼啦圈的动作,使其看起来更加自然真实。
AI视频为何难以捕捉现实动作
AI视频生成模型在处理运动方面面临的挑战是,它们难以捕捉现实世界中复杂的运动、动态和物理现象。
Meta 的研究团队发现,当视频帧被打乱时,基于像素的损失几乎没有变化,这表明模型对时间不一致性不敏感。换句话说,传统的像素重建目标导致模型过度关注外观保真度,而忽略了运动的连贯性。
VideoJAM 的解决方案
VideoJAM 旨在通过修改目标函数来引入显式的运动先验,让模型能够从单一的学习表征中同时预测外观和运动。这种方法迫使模型同时捕捉视觉信息和动态变化,从而提高对运动的理解能力。
VideoJAM 由两个互补的模块组成:训练阶段的目标扩展和推理阶段的 Inner-Guidance 机制。
训练阶段:联合预测外观与运动
在训练阶段,研究人员将目标扩展为基于单一的学习表征,同时预测生成的像素及其对应的运动,使得模型能学习外观与运动的联合表征。
推理阶段:Inner-Guidance 机制
在推理阶段,VideoJAM 引入了 Inner-Guidance 机制,通过利用模型自身不断演化的运动预测作为动态引导信号,引导生成连贯、逼真的动作。
VideoJAM 框架几乎无需额外改动即可应用于任何视频模型,无需修改训练数据或扩大模型规模。
在仅使用自身训练集中的 300 万个样本对预训练视频生成模型(DiT)进行微调后,VideoJAM 实现了卓越的运动连贯性,甚至超越了 Sora 等专有模型。
复杂运动无比真实
VideoJAM-30B 在高难度提示下生成的结果展现了其在复杂运动类型生成方面的卓越能力。
滑板运动员跳跃:运动员与滑板在空中的动作协调,落地时滑板有轻微震动,效果真实。
手指按压粘液球:清晰展现手指与粘液球的粘连状态,生动体现其粘性。
花样滑冰运动员跳跃:运动员在空中旋转协调,快速移动中生成模糊效果。
山羊在旋转球上保持平衡:山羊努力保持平衡,动作符合物理法则。
厨师切番茄:对手指处理没有明显瑕疵,切下的西红柿之间有自然差异。
男孩吹生日蛋糕上的蜡烛:模型理解吹气与蜡烛火苗间的逻辑关系。
花瓶在古董店木地板上摔碎:对碎裂场景的细节处理到位。
视频AI大PK
为了证明 VideoJAM 具备最优的运动连贯性,研究人员进行了定性和定量实验,对比了 Runway Gen3、Sora、DiT 和 VideoJAM 的表现。
定性实验结果
定性评估涵盖了多种运动类型,展现了当前 AI 视频模型面临的挑战,如体操动作、需要物理理解的情境等。
即使是简单的运动,如长颈鹿奔跑,也会出现问题,例如“反向运动”(Sora)或不自然的动作(DiT-30B)。更复杂的运动会导致视频静态不变或身体变形。相比之下,VideoJAM 能够生成连贯的运动。
在转动的指尖陀螺的案例中,所有模型都无法正确地遵循物理学定律。
在同等条件下,VideoJAM 生成的视频主体更大、明暗对比更强烈,运动姿势也更自然。
定量实验结果
定量评估采用自动指标和人工评估相结合的方式,评估外观质量、运动质量以及提示词一致性。
自动指标评估
使用 VBench 基准评估视频生成模型,指标包括逐帧画面质量、美学评分、主体一致性、运动量以及运动连贯性。
人工评估结果
人工评估遵循二选一强制选择(2AFC)协议,评估者根据画面质量、运动表现和文本对齐度选择更优者。
消融实验结果
所有消融实验都显著降低了运动连贯性,表明运动引导组件能够引导模型生成时间上连贯的视频。在推理阶段移除光流预测的影响最大,证明了联合输出结构对于确保合理运动的优势。
局限性
VideoJAM 仍面临一些挑战。由于计算资源的限制,模型在远景场景下难以捕捉运动信息。此外,模型在模拟物理交互时仍存在不足。
结论
VideoJAM 通过由单一的潜在表示同时捕捉外观与运动,显著提升了运动连贯性,甚至可与强大的专有模型竞争。为未来在视频模型中注入更复杂的现实世界先验提供了广阔的可能,为整体建模真实世界交互开辟了新方向。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html