生数科技与清华大学联合发布,引领视频生成技术新潮流
在2024年4月27日举行的中关村论坛未来人工智能先锋论坛上,中国人工智能领域迎来了一个值得纪念的时刻。生数科技与清华大学联合发布了国内首个长时长、高一致性、高动态性的视频大模型——Vidu,标志着中国在全球AI视频生成技术领域的领先地位。
Vidu宣传视频:
目前生数科技官网已经可以支持图像生成--3D生成--视频生成(AI视频生成需要申请使用)
技术突破:
Vidu模型的发布,是中国在AI视频技术领域自主创新的重要成果。它融合了Diffusion与Transformer技术,能够一键生成长达16秒、分辨率高达1080P的高清视频内容。这一技术突破不仅缩短了与国际顶尖水平的差距,更在某些方面实现了超越。
创新架构:
Vidu采用了团队原创的U-ViT架构,这是全球首个将Diffusion与Transformer技术融合的架构。它的提出早于国际上其他同类技术,展现了中国科研团队的前瞻性和创新能力。
模拟与创造:
Vidu的优势不仅在于其技术层面的先进性,更在于其应用层面的广泛性。它不仅能模拟真实物理世界,还具备丰富的想象力,支持多镜头生成。这意味着Vidu能够创造出更加多样化和富有创意的视频内容,满足不同行业的需求。
文化元素的融入:
Vidu在视频效果方面实现了显著提升,能够生成具有中国特色的文化元素,如熊猫、龙等,这不仅丰富了视频内容,也体现了对中国传统文化的尊重和传承。
Vidu的问世,预示着中国在全球人工智能竞赛中占据了更加有利的位置。它的成功研发和应用,将激励更多的科研机构和企业投身于AI技术的研究与开发,共同开启智能科技的新篇章。
与Sora的对标
在视频生成方面,「Vidu」与Sora进行了全面对标,从视频长度、时空一致性、镜头语言、物理模拟等方面看,Vidu已经逼近了Sora的水平。生成的视频长度达到了16秒,画面流畅,细节丰富,逻辑连贯,呈现出高度接近真实世界的效果。
镜头语言注入
在视频制作领域,镜头语言是传递情感、叙述故事和塑造角色的关键手段。传统AI生成的视频往往在镜头运用上缺乏多样性,限制了其叙事潜力。然而,Vidu模型的推出,打破了这一局限。它通过先进的AI技术,实现了包括转场、追焦、长镜头等复杂的镜头效果,极大地丰富了视频的镜头语言。
时空一致性保持
视频画面的连贯和流畅性取决于人物和场景的时空一致性。「Vidu」在一定程度上克服了这一问题,保持了视频的连贯性和流畅性,展现出良好的时间、空间一致性,让观众体验更加真实。
模拟真实物理世界
「Vidu」能够模拟真实物理世界的运动,包括物体的移动和相互作用。与Sora相比,「Vidu」在灰尘、光影等细节方面表现出色,接近真实世界的体验,展现出优秀的技术能力。
意义:
Vidu的发布,不仅是技术上的一次飞跃,也是中国在AI领域自主创新能力的体现。它将为视频制作、游戏开发、影视后期等众多领域带来革命性的变化,极大地推动相关产业的发展。随着Vidu技术的不断迭代和完善,我们有理由相信,它将在全球AI视频技术领域扮演越来越重要的角色。
官网地址:
地址1: https://www.aitop100.cn/tools/detail/1894.html (采用VIdu视频大模型的AI绘画和视频生成平台)
地址2: https://www.shengshu-ai.com/home?ref=top.aibase.com (AI视频使用申请,请点击这里)