霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

ze2年前 (2024-06-23)默认961

免责声明:本文来自微信微信官方账号量子位(ID: qbitai)，作者熙丰，授权站长之家转载发布。

一张头像，一段音频参考，就能让霉霉在你面前唱出碧昂斯的光环。

一个叫Hallo的研究火了，GitHub赢了1k+。

话不多说，来看看更多效果:

无论是说话还是唱歌，都能搭配出各种风格的人像。从口型到眉眼动作，各种五官都很自然。

如果单独比较不同的动作强度，即使动作幅度较大也可以控制:

独立调节嘴唇运动的幅度，表现如下:

看到效果后，很多网友称之为目前最好的开源同步视频生成:

这项工作由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。

团队提出了分层的音频驱动的视觉合成模块，将人脸分为嘴唇、表情和姿势三个区域，分别学习它们与音频的对齐关系，然后通过自适应加权融合这三个注意力模块的输出，从而更精细地对音视频同步建模。

Hallo长啥样?

如上所述，Hallo是通过使用参考图像、音频序列和可选的视觉合成权重，结合基于分层音频驱动视觉合成方法的扩散模型来实现的。

整体架构是这样的:

参考图像的全局视觉特征由ReferenceNet编码；人脸编码器提取身份相关特征；音频编码器将输入语音转换成与运动相关的特征表示；分层的音频驱动的视觉合成模块用于在三个层次上建立音频和视频之间的关联:嘴唇、表情和姿势。最后，视频帧由扩散模型中的UNet生成。

Stable Diffusion1.5作为基础架构，包括三个主要部分:VQ-VAE编码器、基于UNet的去噪模型和条件编码模块。与传统的文本驱动扩散模型不同，Hallo去除了文本条件，转而使用音频特征作为主要的运动控制条件。

ReferenceNet用于从参考图像中提取全局视觉特征，指导视频生成的外观和纹理。结构和扩散模型的UNet解码器共享相同的层数和特征图尺度，便于在去噪过程中融合参考图像特征。在模型训练阶段，视频剪辑的第一帧被用作参考图像。

时间对齐用于对连续视频帧之间的时间相关性进行建模，以确保生成的视频的时序一致性。从前一个推理步骤中选取一个子集(例如2帧)作为运动参考帧，在时间维度上与当前步骤中的潜在噪声进行拼接，通过自我注意机制对帧间的相关性和变化进行建模。

另外，分层音频驱动的可视化合成方法是整个网络架构的核心部分。

人脸编码器利用预先训练好的人脸识别模型，直接从参考图像中提取高维人脸特征向量；音频编码器使用wav2vec模型提取音频特征，通过多层感知器映射到运动特征空，使语音转换成与面部运动相关的特征表示，作为视频生成的条件。

之后将音频特征分别与嘴唇、表情和姿势区域的视觉特征进行交叉，得到三个对齐的特征表示，通过自适应加权融合成最终的条件表示。

这种方法还可以通过调整不同区域注意力模块的权重来控制生成的视频在表情和姿态上的丰富程度，可以适应人的不同面部特征。

Hallo表现如何?

后来，研究小组将Hallo与SOTA的方法进行了定量和定性的比较，如SadTalker、DreamTalk、Audio2Head和AniPortrait。

用HDTF、哔哩哔哩、Youtube的数据构建大规模人像视频数据集，清洗后用于训练。

在评价指标上，用FID和FVD评价生成视频的真实性，用Sync-C和Sync-D评价唇同步，用E-FID评价生成人脸的保真度。

从定量评价来看，在HDTF数据集上，Hallo在几个指标上表现最好:

在增强唇形同步的同时，Hallo保持了高保真的视觉生成和时间一致性:

Hallo在CelebV数据集上显示了最低的FID和FVD以及最高的Sync-C:

视觉对比如下:

Hallo在自建的Wild数据集上也是出类拔萃的:

不同数据集的定性对比结果如下。

Hallo演示了生成不同风格的人像的能力，可见这种方法的通用性和健壮性:

同时表现出对不同音频的响应能力，可以生成与音频内容兼容的高保真视频:

相比其他方法，Hallo表现出更自然的表情和头部动作:

对特定角色数据的微调显示了这种方法捕捉角色特征和生成个性化图像的能力。

最后，研究人员进行了烧蚀实验，总结了这种方法的局限性，如快速移动场景下的时序一致性有待提高，推理过程的计算效率有待优化等。

另外，据笔者了解，Hallo目前只支持固定大小的人像输入。

而且这种方法目前还不能实现实时生成。

针对这项研究，也有网友提出了Deepfake的隐患。对此你怎么看？

参考链接:

[1]https://Fudan-generative-vision . github . io/hallo/#/

[2]https://github . com/Fudan-generative-vision/hallo

[3]https://x . com/JoeSiyuZhu/status/1801780534022181057

[4]https://x . com/halimalarasihi/status/1802152918432334028

— End—

返回列表

上一篇：成都发布人工智能新政策！“首版次”软件产品最高可获250万元资金补贴【附人工智能行业前景分析】

下一篇：小红书电商能打破柜姐逻辑吗？

相关文章

中国乒协：“饭圈”乱象严重干扰训练比赛，将追究相关组织人员法律责任

声明近期，公安机关会同相关部门依法打击整治体育领域 " 饭圈 " 违法犯罪行为。对此，中国乒乓球协会表示坚决支持，并强烈谴责任何违法犯罪行为。 " 饭圈 " 乱象已经严重干扰中国乒乓球队的正常训...

一天67例“洗肺”！7岁男童肺部实变！紧急提醒……

最近，小儿支原体肺炎备受关注。孩子什么时候传染？需不需要输液，“肺灌洗”？担心医院拥挤，可以用自己的药吗？一个7岁男孩咳嗽了一个星期。肺实变。近日，据大湾新闻报道，7岁男童蔷蔷(化...

东京一公司雇用11只猫减少“班气”

据日本《每日新闻》27 日报道，东京一家系统工程公司，因“雇用” 11 只与众不同的猫员工来减少“班气” —— 为大家缓解压力和改善工作氛围而出了名。这群猫员工负责安抚人类同事，同时也负责社交...

下架！微信最新公告

最近，微短剧已经在很多平台流行。但也有违规频发的情况。比如“24小时2000万元”这几个字的短剧《黑莲上手册》刚火起来就全网下架了。11月21日微信珊瑚已安全发布。关于该剧下架的公告...

告别免费时代，闲鱼着急赚钱？

告别免费时代，闲鱼着急赚钱？

声明:本文来自于微信公众号 Tech星球（微信ID:tech618），作者:任雪芸，授权站长之家转载发布。 “最多的一年，我在闲鱼上出掉了上百件闲置物品”，作为闲鱼的资深用户，李丽一度很满意闲鱼的交...

整改风波后疯狂小杨哥现身王晶70岁生日会整改后首露面引关注！

整改风波后疯狂小杨哥现身王晶70岁生日会整改后首露面引关注！

疯狂小杨哥现身王晶70岁生日会　　【疯狂小杨哥现身王晶70岁生日会】近日，香港导演王晶在广东举办的70岁生日会上，久未公开露面的网红“疯狂小杨哥”（本名张庆杨）意外现身，成为舆论焦点。这场跨越影视圈...