支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate

ze2年前 (2024-06-13)默认587

【/h/]免责声明:本文来自微信微信官方账号机器之心（ID:almosthuman2014）。作者:机器之心，经站长之家授权转载发布。

【/h/]人体跳舞视频的生成是一项引人注目且具有挑战性的可控视频合成任务，旨在根据输入的参考图像和目标姿势序列生成高质量的逼真连续视频。随着视频生成技术的快速发展，特别是生成模型的迭代演进，舞蹈视频生成任务取得了前所未有的进展并展现出广泛的应用潜力。

【/h/]现有的方法大致可以分为两组。第一组通常基于生成对抗性网络（GAN），该网络通过使用中间手势指导表示来扭曲参考外观，并通过先前扭曲的目标生成合理的视频帧。然而，基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题，从而导致明显的伪像和帧抖动。

【/h/]第二组使用扩散模型合成逼真的视频。这些方法兼具训练稳定和迁移能力强的优点，性能优于基于GAN的方法，如Disco、MagicAnimate、Animate Anyone、Champ等。

【/h/]尽管基于扩散模型的方法取得了显著进展，但现有方法仍存在两个局限性:第一，需要额外的参考网络对参考图像特征进行编码并与3D-UNet的主要分支对齐，这增加了训练难度和模型参数；第二，他们通常使用时序Transformer对视频帧之间的时序依赖性进行建模，但Transformer的复杂度与生成时间的长度成二次关系，这限制了生成视频的时序长度。典型的方法只能生成24帧视频，这限制了实际部署的可能性。尽管时序重合的滑动窗口策略可以生成较长的视频，但团队作者发现这种方法容易导致转换不流畅和剪辑重叠关节处外观不一致的问题。

【/h/]为了解决这些问题，来自华中科技大学、阿里巴巴和中国科学技术大学的研究团队提出了UniAnimate框架，以实现高效和长期的人类视频生成。

【/h/]方法介绍

【/h/]【/h/]UniAnimate框架首先将参考图像、手势引导和含噪视频映射到特征空，然后使用统一的视频扩散模型同时处理参考图像和视频主干分支的表观对齐和视频去噪任务，从而实现高效的特征对齐和连贯的视频生成。

【/h/]其次，研究团队还提出了统一的噪声输入，支持基于第一帧的随机噪声输入和条件噪声输入。随机噪声输入可以与参考图像和手势序列协作来生成视频，而基于第一帧的条件噪声输入将视频的第一帧作为条件输入来生成后续视频。这样，可以通过将前一个视频片段的最后一帧作为下一个片段的第一帧来生成推理，以此类推。

【/h/]最后，为了进一步高效处理长序列，研究团队探索了一种基于state空模型（Mamba）的时间建模架构，作为原始计算密集型时间序列转换器的替代方案。实验表明，基于顺序Mamba的体系结构可以实现与顺序Transformer相似的效果，但它需要更少的内存开销。

【/h/]通过UniAnimate框架，用户可以生成高质量的连续人类舞蹈视频。值得一提的是，通过多次使用第一帧调节策略，可以生成持续一分钟的高清视频。与传统方法相比，UniAnimate具有以下优势:

【/h/]这些特性使得UniAnimate框架在合成高质量和长时间的人类跳舞视频方面表现出色，这为更广泛的应用提供了新的可能性。

【/h/]生成结果的示例

1。基于合成图片的舞蹈视频生成。

2。基于真实图片的舞蹈视频生成。

3。基于粘土风格图片的舞蹈视频生成。

4。马斯克跳舞。

5。Yann LeCun跳舞。

6。基于其他跨领域图片的舞蹈视频生成。

7。一分钟舞蹈视频生成。

【/h/]，持续时间01:05

【/h/]有关原始MP4视频和更多高清视频示例，请参考本文的项目主页，https://unianimate.github.io/.

【/h/]实验对比分析

1。在抖音数据集上与现有方法的定量对比实验。

【/h/]如上表所示，UniAnimate方法在L1、PSNR、SSIM、LPIPS等图像指标和FVD等视频指标上取得了最佳结果，这表明UniAnimate可以生成高保真的结果。

2。与现有方法的定性比较实验。

【/h/]从上面的定性对比实验也可以看出，与MagicAnimate和Animate Anyone相比，UniAnimate方法可以生成更好的连续结果，并且没有明显的伪影，这表明了UniAnimate的有效性。

3。剥离实验。

【/h/]从上表中的数值结果可以看出，UniAnimate中使用的参考姿态和统一视频扩散模型在提高性能方面发挥了关键作用。

4。长视频生成策略的比较。

【/h/]从上图可以看出，常用的时序重叠的滑动窗口策略容易导致过渡不连续。研究团队认为，这是因为不同窗口在时序重叠部分的去噪难度不一致，这使得生成的结果不同，而直接平均会导致明显的变形或失真，并且这种不一致会错误地传播。本文使用的第一帧视频连续生成方法可以生成平滑过渡。

【/h/]更多实验对比结果及分析请参考原论文。

【/h/]总之，UniAnimate的实例结果和定量对比结果都很不错。我们期待UniAnimate在影视制作、虚拟现实和游戏行业等各个领域的应用，为用户带来更加逼真、精彩的人类形象动画体验。

返回列表

上一篇：法治面 | 山西老“首富”身后百亿资产引三“首富”暗战数年，普阳潞宝股权纠纷案悬而未决

下一篇：大健康产业招商清单：上海医药、云南白药、智飞生物【附关键企业名录】

相关文章

百亿tokens免费额度，清华系明星AI公司的羊毛薅起来

百亿tokens免费额度，清华系明星AI公司的羊毛薅起来

【/h/]免责声明:本文来自微信官方账号量子比特（ID:QbitAI），作者:云忠，经站长之家授权转载发布。【/h/]百亿代币补贴，4月起免费！【/h/]这次的羊毛来自清华AI公司，企业和个人都可以收...

中小商家渴望“流量平权”

中小商家渴望“流量平权”

声明:本文来自于微信公众号字母榜，作者:彦飞，授权站长之家转载发布。今年双11，各大电商平台不再办晚会、发战报，而是将商家减负作为比拼重点，以回应大大小小的商家降本增效、提升利润的渴求。这一转...

合肥技校老师卖杯子一年赚2亿恒鑫生活IPO引关注！

合肥技校老师卖杯子一年赚2亿恒鑫生活IPO引关注！

合肥技校老师卖杯子一年赚2亿　　【合肥技校老师卖杯子一年赚2亿】近日，合肥一家名为“恒鑫生活”的公司在创业板IPO注册申请获批，引发广泛关注。这家以生产纸杯、杯盖等餐饮包装产品为主营业务的公司，...

赛诺菲流感疫苗被叫停？医疗机构：上海全部停止接种，原因未知

8 月 26 日晚间，赛诺菲旗下巴斯德流感疫苗被暂停接种的消息在网络流传。 8 月 27 日早，《每日经济新闻》记者致电嘉会医疗客服电话，对方表示医院是接到了上海市疾控中心方面的通知，但具体原因未知...

FBI:枪击特朗普的嫌犯手机被破解调查仍处于早期阶段!!

FBI:枪击特朗普的嫌犯手机被破解调查仍处于早期阶段!!

枪杀特朗普的嫌犯的手机被破解了。[枪杀特朗普嫌犯手机被破解]据外媒报道，美国联邦调查局(美国联邦调查局)15日表示，已成功解锁特朗普枪击案嫌犯托马斯·马修·克鲁克斯的手机，并将继续调查其动机。报道称，...

估值上亿的违建豪宅一夜被推平对违法建筑的有力打击对有关人员将严肃追责问责！

估值上亿的违建豪宅一夜被推平对违法建筑的有力打击对有关人员将严肃追责问责！

估值上亿的违建豪宅一夜被推平　　【估值上亿的违建豪宅一夜被推平】5月28日，广东汕头一处估价高达1.14亿元的违建豪宅“英之园”在一夜之间被彻底拆除，这一事件迅速引发社会广泛关注。“英之园”位于汕头...