豆包大模型开源VideoWorld：纯视觉驱动的AI模型新突破-AITOP100,AI资讯

豆包大模型团队开源VideoWorld：纯视觉驱动的AI模型新突破

来自豆包大模型团队官方公众号的最新消息显示，由北京交通大学与中国科学技术大学联合研究，并由豆包大模型团队主导的 “VideoWorld” 视频生成实验模型，已正式宣布开源。

VideoWorld 模型示意图

该模型最显著的特点在于，它摒弃了对传统语言模型的依赖，完全基于视觉信息来实现对世界的认知和理解。这项创新性研究的灵感源自李飞飞教授在 TED 演讲中提出的观点，即 “幼儿无需依赖语言便可理解真实世界”。

“VideoWorld” 通过深入分析和处理海量的视频数据，从而获得了进行复杂推理、规划和决策的能力。研究团队的实验结果表明，即使在仅有 300M 参数的轻量级配置下，该模型也能展现出卓越的性能。与当前依赖语言或标签数据的模型不同，VideoWorld 具备独立进行知识学习的能力，尤其在折纸、打领结等需要直观理解的复杂任务中，能够提供更便捷的学习方式。

为了全面评估模型的有效性，研究团队特别构建了围棋对战和机器人模拟操控两种实验环境。围棋，作为一项极具策略性的游戏，能够有效检验模型的规则学习和推理能力；而机器人任务则侧重于考察模型在控制和规划方面的表现。在训练过程中，模型通过观看大量的视频演示数据，逐步建立起对未来画面变化的预测能力。

为了显著提升视频学习的效率，研究团队创新性地引入了一种潜在动态模型（LDM），其主要目的是压缩视频帧之间的视觉变化，从而高效地提取出关键信息。这一方法不仅大幅减少了冗余信息，还显著增强了模型对于复杂知识的学习效率。得益于这一创新技术，VideoWorld 在围棋和机器人任务中均表现出色的能力，甚至达到了专业五段围棋选手的水平。

核心要点：

🌟 “VideoWorld” 模型无需依赖语言模型，仅凭视觉信息即可实现知识学习。
🤖 模型在围棋和机器人模拟任务中展现出强大的推理和规划能力。
🔓 该项目代码与模型已开源，欢迎广大开发者参与体验与交流。

豆包AI工具地址：【点击登录】

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html