2024年10月,Meta公司宣布推出其最新研发的AI视频音频生成模型系列——Movie Gen,标志着人工智能在媒体创作领域的又一次重大突破。该模型系列代表了Meta在生成式AI领域的最新进展,能够根据文本提示自动生成高清视频和音频,同时提供个性化视频生成和视频编辑功能。
Movie Gen软件工具官网:【点击登陆】
Movie Gen的核心功能包括
- 视频生成: Movie Gen能够根据文本提示生成最长16秒、每秒16帧的高清视频。该模型采用了30B参数的Transformer结构,通过时间自动编码器模型(TAE)训练了一个时空压缩的隐空间,然后基于此训练了一个生成模型。
- 音频生成: 同时,Meta还发布了一个130亿参数的音频生成模型,能够生成与视频同步的高质量音频,包括环境音、拟声音效和乐器背景音乐。
- 个性化视频: 用户可以提供一张人物图像和文本提示,生成包含特定人物的视频,同时保持人物身份和动作的连贯性。
- 视频编辑: Movie Gen还提供精确的视频编辑功能,允许用户对视频进行局部编辑,例如添加、移除或替换元素,以及全局更改,如修改背景或风格。
技术亮点
- Movie Gen模型采用了多阶段训练方法,包括预训练、监督式微调等阶段,提高了模型性能。
- 利用流匹配(Flow Matching)技术,该技术相比传统的扩散模型,具有更高的效率和稳定性。
- 提示词重写功能,使用Llama 3对用户输入的提示词进行重写和扩展,提升了生成质量。
应用前景
Movie Gen的发布,不仅为专业视频创作者提供了强大的辅助工具,也为广大视频爱好者降低了创作门槛。从影视行业的预告片、广告行业的创意广告到社交媒体的个性化内容,Movie Gen的应用场景极为广泛。
想了解更多AI行业资讯信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html