Persona Talk技术突破:无需训练即可创建数字人
在人工智能生成内容(AIGC)的热潮下,视频口型编辑技术正成为视频内容个性化与智能化的重要手段。音频驱动的视觉配音在现实世界的应用场景中越来越广泛,如数字人口播、多语言视频翻译等。现有方法要么需要大量目标说话者的视频进行个性化建模,要么无法保留说话者的个性特征。PersonaTalk旨在解决这些问题,不仅生成与音频同步的唇形,还保留说话者的独特风格和面部细节。PersonaTalk的技术,这是一个基于注意力机制的两阶段框架,用于实现高保真度和个性化的视觉配音。给定任意输入视频(参考视频)和目标音频,该方法可以合成一个高保真度的、个性化的唇形同步视频,同时突出说话者的个性,如说话风格和面部细节。
字节跳动近期的技术成果PersonaTalk,成功入选了SIGGRAPH Asia 2024-Conference Track,展现了视频口型编辑技术的新突破。这项技术能够在不依赖原视频质量的情况下,保障生成视频的质量,同时兼顾zero-shot技术的便捷和稳定性,通过语音轻松修改视频中人物的口型,实现高质量视频编辑和数字人视频制作的快速实现。
创新框架:基于注意力机制的双阶段框架
PersonaTalk技术构建了一个基于注意力机制的双阶段框架,有效统一了定制化训练和zero-shot方案的优势。在第一阶段,通过风格感知的动画生成模块(Style-Aware Geometry Construction)在3D几何空间中生成人物的口型动画序列;第二阶段则通过双分支并行的注意力模块(Dual-Attention Face Rendering)进行人像渲染,生成最终的视频。
好的,让我用更通俗的语言来解释PersonaTalk的基于注意力机制的双阶段框架:
阶段一:制作说话人的“面部模型”
1. 测量面部特征:
- 想象我们有一台超级先进的相机,可以拍摄出视频中人物的3D面部模型。这个模型包括了人物的脸型、表情和姿态等细节。
2. 给音频添加个性:
- 我们有一种特殊的音频处理技术,能够识别出每个人说话时的独特风格,比如语速、语调和强调的方式。然后,我们将这种风格融入到音频中,使得音频不仅仅是声音,还包含了说话者的个性。
3. 生成会动的面部模型:
- 接下来,我们让这个3D面部模型根据带有个性的音频动起来,模拟出说话时嘴唇的动作。这样,我们就得到了一个会根据特定声音动的面部模型。
阶段二:给面部模型“上妆”,让它看起来更真实
1. 面部特征和纹理的编码:
- 我们把面部模型和实际视频中的面部特征转换成一种特殊的代码,这样可以在计算机中更容易处理。
2. 细节调整:
- 为了让面部模型看起来更真实,我们需要给它添加皮肤纹理、颜色等细节。我们有两种特殊的工具(唇部注意力和面部注意力),分别用来调整嘴唇和面部其他部分的细节。
3. 选择最佳画面:
- 为了让面部表情看起来自然,我们会从视频中选择最合适的画面作为参考。比如,我们会选一些头部姿势相近的画面,这样在合成时能够更好地保持人物的原始表情和细节。
4. 从代码变回图像:
- 最后,我们把处理好的代码再转换成图像,这样我们就得到了一个既会动又看起来非常真实的说话人的面部视频。
简而言之,PersonaTalk技术就像是给视频中的人物化妆,让他们的嘴唇能够根据我们提供的声音动起来,同时还保留他们原来的面部特征和表情。这样,我们就可以创造出一个既会说话又看起来和真人一样的虚拟人物了。
技术优势:声音同步嘴型与保留人物特点
的核心能力在于声音同步嘴型和保留人物特点。它能够确保视频中人物的嘴部动作与新语音的口型完全匹配,同时保留人物的原有特点,如说话方式、脸型和表情,保持视频的真实感。此外,PersonaTalk不需要大量数据单独训练每个人物,适应多样化场景,提供更大的灵活性和便利性。
根据论文内容,PersonaTalk的技术优势可以汇总如下:
1. 高保真和个性化的视觉配音:
- PersonaTalk能够合成与目标音频精准唇形同步的视频,同时保留说话者的独特说话风格和面部细节,如牙齿、面部轮廓、肤色和妆容。
2. 基于注意力的两阶段框架:
- 该框架包括几何构建和面部渲染两个阶段,有效结合了定制化训练和zero-shot方案的优势。
3. 无需训练即可创建数字人:
- PersonaTalk不需要大量的数据来单独训练特定的人物,可以适应不同的人物和场景,实现即插即用。
4. 风格感知的音频编码:
- 通过从3D几何中提取的统计特征来学习说话者的个性化风格,并将这种风格嵌入到音频特征中。
5. 双注意力面部渲染器:
- 包含两个并行的交叉注意力层(Lip-Attention和Face-Attention),分别从不同的参考帧中采样纹理,以渲染整个面部。
6. 保留复杂面部细节:
- 创新设计能够很好地保留复杂的面部细节,如牙齿的清晰度、面部轮廓的准确性、肤色和妆容的保留。
7. 多维度评价与优化:
- PersonaTalk不仅关注唇形同步的准确性,还从视觉质量和个性保持等多个维度对生成效果进行评估和优化。
8. 广泛的应用场景:
- 适用于多媒体教学、动画制作和在线课程等多种场景。
9. 与特定人物方法相媲美的性能:
- 作为一个通用框架,PersonaTalk能够达到与特定人物方法相媲美的性能,无需针对每个人物进行微调。
10. 实验和用户研究验证:
- 通过广泛的实验和用户研究,PersonaTalk在视觉质量、唇形同步精度和个性保留方面展现出比现有技术更优的性能。
这些技术优势使得PersonaTalk在音频驱动的视觉配音领域中具有显著的竞争力,能够为用户提供高质量的个性化视频内容。
应用前景:视频翻译、虚拟教师、AIGC创作
PersonaTalk技术的应用前景广泛,可以应用于视频翻译、虚拟教师、AIGC创作等多个场景。实验结果表明,PersonaTalk在视觉质量、口型同步精度和人物个性化保留方面均具有显著优势,超越其他最先进的模型。
- 视频内容制作:用于生成与音频同步的唇形和面部表情,提升视频真实感。
- 多语言视频翻译:将视频内容翻译成不同语言,并自动匹配口型。
- 虚拟主播和教师:创建虚拟人物进行新闻播报、在线教育等。
- 娱乐和社交媒体:用于制作有趣的视频内容,增加互动性和娱乐性。
- 广告和营销:定制化广告视频,提高广告的吸引力和个性化。
安全与伦理:限制模型的对外开放和使用权限
为了防止技术被滥用,字节跳动计划将核心模型的访问权限限制在研究机构范围内,确保技术的安全和伦理使用。
结论
PersonaTalk技术通过注意力机制的双阶段框架,有效突破了已有视频口型编辑技术的瓶颈,可以用很低的成本来生成高质量的人物口播视频,实现了效果和效率的兼顾。随着技术的不断发展,相信PersonaTalk将使视频内容以及数字人创作变得更加生动、真实,拉近虚拟世界与现实生活之间的距离。
项目介绍: https://www.aitop100.cn/tools/detail/1977.html
论文地址:https://grisoon.github.io/PersonaTalk/
更多每日AI资讯,请查看》》》 https://www.aitop100.cn/infomation/details.html?id=19377