Waver
1.17w
0
0
Waver是由Foundation Vision团队开源的通用视频生成大模型,它把文本-视频(T2V)、图像-视频(I2V)、多机位叙事、长时长高分辨率生成等能力整合到同一套权重里,无需额外微调即可直接输出5 s / 10 s、720 p / 1080 p的成品视频。
工具标签:
直达网站
工具介绍

一、Waver是什么?
Waver是由Foundation Vision团队开源的「All-in-One」通用视频生成大模型,官方口号是 “Make your creativity groundbreaking”。它把文本-视频(T2V)、图像-视频(I2V)、多机位叙事、长时长高分辨率生成等能力整合到同一套权重里,无需额外微调即可直接输出5 s / 10 s、720 p / 1080 p的成品视频。
二、模型性能:
Artificial Analysis(2025-08-05 19:00 GMT+8)公开排行榜:Waver 1.0在运动质量、视觉质量、Prompt Following三项均位列第一,超越Runway Gen-4、Pika 2.0、Stable Video Diffusion等开源/闭源对手。
自建评测集
- Waver-Bench 1.0:覆盖 1200+ 组复杂动作、光影、风格化prompt。
- Hermes Motion-Testset:聚焦大规模人体与动物运动,人工盲评显示 Waver 领先第二名 18 %。
三、核心功能
文本-视频:
- 亮点:单句prompt 直接出片
- 示例效果:“雨中玻璃罐里微型世界”——雨滴、蘑菇咖啡馆、小人撑伞,细节全部对齐
图像-视频:
- 亮点:任意静图「活」起来
- 示例效果:把一张帆船照片变成半水下视角的10 s航行片段
多机位叙事:
- 亮点:原生支持镜头切换,角色/场景/光场一致
- 示例效果:老工匠完工:近景手部→特写眼睛→全景工作室→情绪收束,4镜一气呵成
长时长输出:
- 亮点:最长 10 s 连续片段,情感动作更完整
- 示例效果:企鹅百米冲刺:起跑、加速、撞线、减速,动作物理合理
高分辨率:
- 亮点:1080 p 原生,无需后超分
- 示例效果:城市夜景+烟花航拍,灯牌文字清晰可辨
多艺术风格:
- 亮点:写实、动漫、黏土、毛绒、赛博朋克、Wes Anderson 等一键切换
- 示例效果:王家卫复古滤镜+可口可乐机,胶片颗粒与霓虹光斑精准还原
运动皇冠:
- 亮点:人物/动物体育动作
- 示例效果:大熊猫花样滑冰、老虎高山滑雪、袋鼠拳击,关节轨迹真实
四、需求人群
- 创意工作室:广告片头、MV、概念 PV 快速预演。
- 自媒体 & MCN:低成本生成高质感短视频,批量起号。
- 影视动画:分镜预览、特效预合成、风格探索。
- 教育与培训:医学/体育/军事等需要人体动态演示的场景。
- 电商 & 零售:商品 360° 动态展示、虚拟试穿。
- 独立开发者:开源可商用,二次开发门槛低。
五、应用场景
- 广告创意:24K 金杏坠落慢动作 + 液体飞溅,一条 5 s 片头直接投放 TikTok Ads。
- 文旅宣传:输入一张古镇照片,生成“晨雾+花瓣雨+游船穿梭”的 10 s 竖屏短片。
- 动画分镜:导演一句“赛博曼谷飞狗出租车”,30 秒出 4 镜连贯故事板。
- 体育教学:生成“托马斯全旋”第一人称视角,配合骨骼标注用于动作拆解。
- 虚拟偶像:毛绒风格偶像在黏土世界开演唱会,跨次元联动。
想了解AITOP100平台其它版块的内容,请点击下方超链接查看
AI创作大赛 | AI活动 | AI工具集 | AI资讯专区
AITOP100平台官方交流社群二维码:

评论
全部评论

暂无评论
热门推荐
相关推荐

大模型实验室Lab4AI
大模型实验室Lab4AI是提供高性能GPU场景的实操平台和内容社区,致力于为高校科研人员、AI开发者和学习者提供高性能算力支持与全链条工具服务,打造“从论文到创新,从课程到实践”的闭环生态。平台聚焦科研探索与技能提升两大核心场景,通过集成先进AI能力、云端算力资源和实操环境,助力用户高效完成学术研究
EasyControl
EasyControl是一个在人工智能绘画领域具有创新意义的框架,专为基于 Transformer 架构的扩散模型(DiT)设计,旨在提供高效且灵活的条件控制能力,犹如为DiT模型装上了强大的“ControlNet
文心一言
文心一言是百度推出的新一代知识增强大语言模型,属于文心大模型家族的新成员。这个模型能够与人进行对话互动、回答问题、协助创作,旨在帮助人们高效便捷地获取信息、知识和灵感。
EmaFusion
EmaFusion是Ema公司推出的一款新型AI语言模型,它采用了一种创新的“级联”判断系统,能够动态平衡成本和准确性。与传统的单一策略系统相比,EmaFusion更像是一个“任务智能大脑”,能够智能地拆解复杂的问题,并将其分配给最合适的AI模型来解决。
SmolLM3
SmolLM3是全球知名的大模型开放平台Hugging Face于2025年7月9日发布并开源的小参数模型。它仅有30亿参数,却性能卓越,超越了Llama-3.2-3B和Qwen2.5-3B等同类开源模型。该模型具备128k上下文窗口,可处理英语、法语等6种语言文本,还支持深度思考和非思考双推理模式
SpatialLM
SpatialLM是杭州群核科技自主研发的一款专为三维空间理解设计的大语言模型。它能够从普通手机或相机拍摄的视频中,快速生成物理正确的3D场景布局。这一能力使得SpatialLM在无需昂贵激光雷达或专业设备的情况下,就能实现高精度的空间数据采集与处理。
DeepSeek
DeepSeek是由幻方量化于2023年4月创立的一家AI公司,专注于开发高性能的大语言模型。DeepSeek的DeepSeekChat已经通过了北京市生成式人工智能服务备案,并计划向公众开放服务。
Amazon Bedrock
Amazon Bedrock是亚马逊云科技推出的全球最大AI模型平台,属于完全托管服务。它就像一个“AI模型超市”,通过单个API,把AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI和亚马逊自家等领先人工智能公司的高性能基础模型汇聚在一起
0
0






