支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

ze11个月前默认559

【/h/]免责声明:本文来自微信微信官方账号机器之心(ID:almosthuman2014)。作者:机器之心,经站长之家授权转载发布。

【/h/]人体跳舞视频的生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量的逼真连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演进,舞蹈视频生成任务取得了前所未有的进展并展现出广泛的应用潜力。

【/h/]现有的方法大致可以分为两组。第一组通常基于生成对抗性网络(GAN),该网络通过使用中间手势指导表示来扭曲参考外观,并通过先前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,从而导致明显的伪像和帧抖动。

【/h/]第二组使用扩散模型合成逼真的视频。这些方法兼具训练稳定和迁移能力强的优点,性能优于基于GAN的方法,如Disco、MagicAnimate、Animate Anyone、Champ等。

【/h/]尽管基于扩散模型的方法取得了显著进展,但现有方法仍存在两个局限性:第一,需要额外的参考网络对参考图像特征进行编码并与3D-UNet的主要分支对齐,这增加了训练难度和模型参数;第二,他们通常使用时序Transformer对视频帧之间的时序依赖性进行建模,但Transformer的复杂度与生成时间的长度成二次关系,这限制了生成视频的时序长度。典型的方法只能生成24帧视频,这限制了实际部署的可能性。尽管时序重合的滑动窗口策略可以生成较长的视频,但团队作者发现这种方法容易导致转换不流畅和剪辑重叠关节处外观不一致的问题。

【/h/]为了解决这些问题,来自华中科技大学、阿里巴巴和中国科学技术大学的研究团队提出了UniAnimate框架,以实现高效和长期的人类视频生成。

【/h/]方法介绍

【/h/]【/h/]UniAnimate框架首先将参考图像、手势引导和含噪视频映射到特征空,然后使用统一的视频扩散模型同时处理参考图像和视频主干分支的表观对齐和视频去噪任务,从而实现高效的特征对齐和连贯的视频生成。

【/h/]其次,研究团队还提出了统一的噪声输入,支持基于第一帧的随机噪声输入和条件噪声输入。随机噪声输入可以与参考图像和手势序列协作来生成视频,而基于第一帧的条件噪声输入将视频的第一帧作为条件输入来生成后续视频。这样,可以通过将前一个视频片段的最后一帧作为下一个片段的第一帧来生成推理,以此类推。

【/h/]最后,为了进一步高效处理长序列,研究团队探索了一种基于state空模型(Mamba)的时间建模架构,作为原始计算密集型时间序列转换器的替代方案。实验表明,基于顺序Mamba的体系结构可以实现与顺序Transformer相似的效果,但它需要更少的内存开销。

【/h/]通过UniAnimate框架,用户可以生成高质量的连续人类舞蹈视频。值得一提的是,通过多次使用第一帧调节策略,可以生成持续一分钟的高清视频。与传统方法相比,UniAnimate具有以下优势:

【/h/]这些特性使得UniAnimate框架在合成高质量和长时间的人类跳舞视频方面表现出色,这为更广泛的应用提供了新的可能性。

【/h/]生成结果的示例

1。基于合成图片的舞蹈视频生成。

2。基于真实图片的舞蹈视频生成。

3。基于粘土风格图片的舞蹈视频生成。

4。马斯克跳舞。

5。Yann LeCun跳舞。

6。基于其他跨领域图片的舞蹈视频生成。

7。一分钟舞蹈视频生成。

【/h/],持续时间01:05

【/h/]有关原始MP4视频和更多高清视频示例,请参考本文的项目主页,https://unianimate.github.io/.

【/h/]实验对比分析

1。在抖音数据集上与现有方法的定量对比实验。

【/h/]如上表所示,UniAnimate方法在L1、PSNR、SSIM、LPIPS等图像指标和FVD等视频指标上取得了最佳结果,这表明UniAnimate可以生成高保真的结果。

2。与现有方法的定性比较实验。

【/h/]从上面的定性对比实验也可以看出,与MagicAnimate和Animate Anyone相比,UniAnimate方法可以生成更好的连续结果,并且没有明显的伪影,这表明了UniAnimate的有效性。

3。剥离实验。

【/h/]从上表中的数值结果可以看出,UniAnimate中使用的参考姿态和统一视频扩散模型在提高性能方面发挥了关键作用。

4。长视频生成策略的比较。

【/h/]从上图可以看出,常用的时序重叠的滑动窗口策略容易导致过渡不连续。研究团队认为,这是因为不同窗口在时序重叠部分的去噪难度不一致,这使得生成的结果不同,而直接平均会导致明显的变形或失真,并且这种不一致会错误地传播。本文使用的第一帧视频连续生成方法可以生成平滑过渡。

【/h/]更多实验对比结果及分析请参考原论文。

【/h/]总之,UniAnimate的实例结果和定量对比结果都很不错。我们期待UniAnimate在影视制作、虚拟现实和游戏行业等各个领域的应用,为用户带来更加逼真、精彩的人类形象动画体验。

相关文章

​广东文坛名家范若丁逝世:他为当代文学的繁荣贡献力量

【/h/]4月20日,记者从艾云等作家处获悉,广东著名文学人物范若丁逝世,享年90岁。【/h/]范若丁,1934年出生,原名范汉生,河南汝阳人。中共党员。他于1949年参加革命并在中原大学学习。后来,...

没人敢做大主播了!

没人敢做大主播了!

声明:本文来自于微信公众号 十里村,作者:十里村,授权站长之家转载发布。 各位村民好,我是村长 我相信在当下,已经很少有人愿意当大主播了。 当然了,我觉得平台未来的策略,也不一定是在大主播上。 01...

车企视频号营销3.0:做内容,也是做关系

车企视频号营销3.0:做内容,也是做关系

声明:本文来自于微信公众号窄播,作者:赵小米,授权站长之家转载发布。 「很多人想看我在车展上有没有露出手机。」在广州车展露面几天后,华为终端BG董事长、智能汽车解决方案BU董事长余承东在视频号上开设...

“污水中捞死鸭洗鹅肠用脚踩”,涉事企业、当地市监紧急回应

【/h/]中新经纬6月17日电(李孝萱)17日上午,有媒体报道称,山东和河南的两家鹅肠和鸭肠生产商在生产中存在“用脚抓工人污水中的死鸭并清洗鹅肠”的行为。以及许多其他健康和安全危害。【/h/]17日上...

“我说的不是段子是生活” 十年地铁引导,成为一道独特的风景线!!

“我说的不是段子是生活” 十年地铁引导,成为一道独特的风景线!!

  “我说的不是段子是生活”   【“我说的不是段子是生活”】近日,北京地铁东四站引导员张立文的别样问候语走红网络,不少网友点赞是暖心段子,而他却说:“我说的不是段子,都是生活。”据现场视频显示,张立...

反华分子,骗了反华分子

" 所有的所谓异见人士的故事, 都是‘金字塔式’骗局。" 作者:陈佳莉 现年 23 岁的王靖渝骗术并不算高明。 2021 年,他在网上用恶毒的言论侮辱戍边英雄官兵,转头就打着 " 人权 " 的幌...