字节跳动的研究团队近日发布了一款名为 OmniHuman 的人工智能系统,它能够将一张静态照片转换成栩栩如生的动态视频,视频中的人物可以说话、唱歌,并呈现自然的肢体动作。这项突破性的技术有望彻底改变数字娱乐产业和人际沟通的方式。
OmniHuman技术特点
OmniHuman 最显著的特点是可以生成完整的全身视频,视频中的人物在讲话时,其手势和肢体动作都非常自然流畅。这超越了以往的 AI 模型,那些模型通常只能生成面部或上半身的动画。该技术的核心在于整合了文本、音频和人体动作等多重输入信息,并采用了名为“全条件”训练的创新方法。这种方法使 AI 能够从更大规模、更丰富的数据集中进行学习。
据研究团队介绍,OmniHuman 系统经过超过 18700 小时的人类视频数据训练,在视频生成效果上取得了显著的进步。通过引入多种条件信号,如文本、音频和姿势信息,该技术不仅提高了视频的生成质量,还减少了数据浪费。
研究人员在一篇发表于 arXiv 平台的论文中指出,尽管近年来人类动画的端到端技术发展迅速,但现有方法在扩大应用范围方面仍然存在局限性。
OmniHuman的应用前景
OmniHuman 拥有广阔的应用前景,例如可以用于制作演讲视频、演示乐器演奏过程等等。经过测试,该技术在多个质量评估标准上均优于现有的同类系统,展现出其卓越的性能。值得一提的是,当前 AI 视频生成技术正处于竞争日益激烈的阶段,谷歌、Meta 和微软等科技巨头也在积极研发类似技术。
潜在风险与伦理考量
尽管 OmniHuman 为娱乐制作、教育内容创作以及数字通讯带来了变革的可能性,但它也引发了人们对于合成媒体可能被恶意滥用的担忧。研究团队计划在即将召开的计算机视觉会议上展示他们的研究成果,但具体的会议时间和地点尚未公布。
论文:https://arxiv.org/pdf/2502.01061
重点总结: 🌟 OmniHuman 是一款全新的 AI 技术,可以将单张静态照片转化为逼真的全身动态视频。 📊 该技术经过 18700 小时的人类视频数据训练,并结合多种输入信号来提升视频的生成效果。 ⚖️ 尽管该技术拥有广泛的应用潜力,但也引发了关于合成媒体可能被滥用的担忧。
更多AI行业最新资讯新闻信息请关注AI人工智能网站--AITOP100平台--AI资讯专区:https://www.aitop100.cn/infomation/index.html