字节跳动OmniHuman：单张照片生成逼真全身AI视频-AITOP100,AI资讯

字节跳动的研究团队近日发布了一款名为 OmniHuman 的人工智能系统，它能够将一张静态照片转换成栩栩如生的动态视频，视频中的人物可以说话、唱歌，并呈现自然的肢体动作。这项突破性的技术有望彻底改变数字娱乐产业和人际沟通的方式。

ai字节跳动

OmniHuman技术特点

OmniHuman 最显著的特点是可以生成完整的全身视频，视频中的人物在讲话时，其手势和肢体动作都非常自然流畅。这超越了以往的 AI 模型，那些模型通常只能生成面部或上半身的动画。该技术的核心在于整合了文本、音频和人体动作等多重输入信息，并采用了名为“全条件”训练的创新方法。这种方法使 AI 能够从更大规模、更丰富的数据集中进行学习。

据研究团队介绍，OmniHuman 系统经过超过 18700 小时的人类视频数据训练，在视频生成效果上取得了显著的进步。通过引入多种条件信号，如文本、音频和姿势信息，该技术不仅提高了视频的生成质量，还减少了数据浪费。

研究人员在一篇发表于 arXiv 平台的论文中指出，尽管近年来人类动画的端到端技术发展迅速，但现有方法在扩大应用范围方面仍然存在局限性。

OmniHuman的应用前景

OmniHuman 拥有广阔的应用前景，例如可以用于制作演讲视频、演示乐器演奏过程等等。经过测试，该技术在多个质量评估标准上均优于现有的同类系统，展现出其卓越的性能。值得一提的是，当前 AI 视频生成技术正处于竞争日益激烈的阶段，谷歌、Meta 和微软等科技巨头也在积极研发类似技术。

潜在风险与伦理考量

尽管 OmniHuman 为娱乐制作、教育内容创作以及数字通讯带来了变革的可能性，但它也引发了人们对于合成媒体可能被恶意滥用的担忧。研究团队计划在即将召开的计算机视觉会议上展示他们的研究成果，但具体的会议时间和地点尚未公布。

论文:https://arxiv.org/pdf/2502.01061

重点总结: 🌟 OmniHuman 是一款全新的 AI 技术，可以将单张静态照片转化为逼真的全身动态视频。 📊 该技术经过 18700 小时的人类视频数据训练，并结合多种输入信号来提升视频的生成效果。 ⚖️ 尽管该技术拥有广泛的应用潜力，但也引发了关于合成媒体可能被滥用的担忧。

更多AI行业最新资讯新闻信息请关注AI 人工智能网站--AITOP100平台--AI资讯专区：https://www.aitop100.cn/infomation/index.html