霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

ze1年前默认947

免责声明:本文来自微信微信官方账号量子位(ID: qbitai),作者熙丰,授权站长之家转载发布。

一张头像,一段音频参考,就能让霉霉在你面前唱出碧昂斯的光环。

一个叫Hallo的研究火了,GitHub赢了1k+。

话不多说,来看看更多效果:

无论是说话还是唱歌,都能搭配出各种风格的人像。从口型到眉眼动作,各种五官都很自然。

如果单独比较不同的动作强度,即使动作幅度较大也可以控制:

独立调节嘴唇运动的幅度,表现如下:

看到效果后,很多网友称之为目前最好的开源同步视频生成:

这项工作由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。

团队提出了分层的音频驱动的视觉合成模块,将人脸分为嘴唇、表情和姿势三个区域,分别学习它们与音频的对齐关系,然后通过自适应加权融合这三个注意力模块的输出,从而更精细地对音视频同步建模。

Hallo长啥样?

如上所述,Hallo是通过使用参考图像、音频序列和可选的视觉合成权重,结合基于分层音频驱动视觉合成方法的扩散模型来实现的。

整体架构是这样的:

参考图像的全局视觉特征由ReferenceNet编码;人脸编码器提取身份相关特征;音频编码器将输入语音转换成与运动相关的特征表示;分层的音频驱动的视觉合成模块用于在三个层次上建立音频和视频之间的关联:嘴唇、表情和姿势。最后,视频帧由扩散模型中的UNet生成。

Stable Diffusion1.5作为基础架构,包括三个主要部分:VQ-VAE编码器、基于UNet的去噪模型和条件编码模块。与传统的文本驱动扩散模型不同,Hallo去除了文本条件,转而使用音频特征作为主要的运动控制条件。

ReferenceNet用于从参考图像中提取全局视觉特征,指导视频生成的外观和纹理。结构和扩散模型的UNet解码器共享相同的层数和特征图尺度,便于在去噪过程中融合参考图像特征。在模型训练阶段,视频剪辑的第一帧被用作参考图像。

时间对齐用于对连续视频帧之间的时间相关性进行建模,以确保生成的视频的时序一致性。从前一个推理步骤中选取一个子集(例如2帧)作为运动参考帧,在时间维度上与当前步骤中的潜在噪声进行拼接,通过自我注意机制对帧间的相关性和变化进行建模。

另外,分层音频驱动的可视化合成方法是整个网络架构的核心部分。

人脸编码器利用预先训练好的人脸识别模型,直接从参考图像中提取高维人脸特征向量;音频编码器使用wav2vec模型提取音频特征,通过多层感知器映射到运动特征空,使语音转换成与面部运动相关的特征表示,作为视频生成的条件。

之后将音频特征分别与嘴唇、表情和姿势区域的视觉特征进行交叉,得到三个对齐的特征表示,通过自适应加权融合成最终的条件表示。

这种方法还可以通过调整不同区域注意力模块的权重来控制生成的视频在表情和姿态上的丰富程度,可以适应人的不同面部特征。

Hallo表现如何?

后来,研究小组将Hallo与SOTA的方法进行了定量和定性的比较,如SadTalker、DreamTalk、Audio2Head和AniPortrait。

用HDTF、哔哩哔哩、Youtube的数据构建大规模人像视频数据集,清洗后用于训练。

在评价指标上,用FID和FVD评价生成视频的真实性,用Sync-C和Sync-D评价唇同步,用E-FID评价生成人脸的保真度。

从定量评价来看,在HDTF数据集上,Hallo在几个指标上表现最好:

在增强唇形同步的同时,Hallo保持了高保真的视觉生成和时间一致性:

Hallo在CelebV数据集上显示了最低的FID和FVD以及最高的Sync-C:

视觉对比如下:

Hallo在自建的Wild数据集上也是出类拔萃的:

不同数据集的定性对比结果如下。

Hallo演示了生成不同风格的人像的能力,可见这种方法的通用性和健壮性:

同时表现出对不同音频的响应能力,可以生成与音频内容兼容的高保真视频:

相比其他方法,Hallo表现出更自然的表情和头部动作:

对特定角色数据的微调显示了这种方法捕捉角色特征和生成个性化图像的能力。

最后,研究人员进行了烧蚀实验,总结了这种方法的局限性,如快速移动场景下的时序一致性有待提高,推理过程的计算效率有待优化等。

另外,据笔者了解,Hallo目前只支持固定大小的人像输入。

而且这种方法目前还不能实现实时生成。

针对这项研究,也有网友提出了Deepfake的隐患。对此你怎么看?

参考链接:

[1]https://Fudan-generative-vision . github . io/hallo/#/

[2]https://github . com/Fudan-generative-vision/hallo

[3]https://x . com/JoeSiyuZhu/status/1801780534022181057

[4]https://x . com/halimalarasihi/status/1802152918432334028

— End—

相关文章

成龙发文庆祝70岁生日,回应身体状态

【/h/]4月7日,成龙发文庆祝70岁生日,并回应了自己的身体状况。全文如下:【/h/]我全世界最亲爱的粉丝们:【/h/]甚至在4月7日之前,许多朋友都在提醒我,大哥,很快就是你的七十岁生日了!【/h...

新疆小女孩在机场即兴跳舞 这是天生的舞者吧!!

新疆小女孩在机场即兴跳舞 这是天生的舞者吧!!

新疆女孩在机场即兴表演。【/h/]【新疆女孩在机场即兴表演】新疆女孩真的很有魅力,不仅漂亮,而且擅长唱歌和跳舞!【/h/]近日,一名来自新疆的小女孩去上海参加音乐节,她在机场即兴表演了一段民族舞蹈,吸...

女子高铁被超大行李箱砸头,官方通报:伤势暂无大碍,行李箱所有者愿意承担后续医疗费用

8 月 19 日,浙江杭州有网友发视频称,在高铁 G7661 次列车上,行李架上的行李箱滑落,女乘客头部被砸中情绪崩溃大哭。20 日,上铁南京客运段官微发布情况说明称,该旅客表示伤势暂无大碍,邻座男...

全国媒婆大赛在开封万岁山举行,媒婆性别不限,奖金最高达100万

【/h/]五一假期期间,河南开封万寿山巫峡市举办全国红娘大赛,游客纷至沓来。【/h/]5月2日,也就是大赛正式举行的第二天,九拍新闻注意到,在大赛开始前不到一个小时,现场已经坐满了观众,一些后来到达的...

说个抽象的事,你现在可以在秘塔AI搜索里上课了。

说个抽象的事,你现在可以在秘塔AI搜索里上课了。

声明:本文来自于微信公众号数字生命卡兹克,授权站长之家转载发布。 给我整不会了。 周末我本来在用秘塔AI搜关税的问题,特朗普一天一个说法,又说关税要结束了。 然后,意外的发现,秘塔上了一个非常有意思...

“御弟哥哥”逛庙会被迫营业 具体是什么情况?

“御弟哥哥”逛庙会被迫营业 具体是什么情况?

“玉帝阁”在逛庙会时被迫开门营业。【/h/]【“宇哥”逛庙会被迫开门营业】与“宇哥”近距离接触后,许多粉丝沉迷其中,纷纷在社交平台上分享照片。【/h/]春节期间,郑州大象庙会吸引了大量市民和社会名流前...