支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate
【/h/]免责声明:本文来自微信微信官方账号机器之心(ID:almosthuman2014)。作者:机器之心,经站长之家授权转载发布。
【/h/]人体跳舞视频的生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量的逼真连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演进,舞蹈视频生成任务取得了前所未有的进展并展现出广泛的应用潜力。
【/h/]现有的方法大致可以分为两组。第一组通常基于生成对抗性网络(GAN),该网络通过使用中间手势指导表示来扭曲参考外观,并通过先前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,从而导致明显的伪像和帧抖动。
【/h/]第二组使用扩散模型合成逼真的视频。这些方法兼具训练稳定和迁移能力强的优点,性能优于基于GAN的方法,如Disco、MagicAnimate、Animate Anyone、Champ等。
【/h/]尽管基于扩散模型的方法取得了显著进展,但现有方法仍存在两个局限性:第一,需要额外的参考网络对参考图像特征进行编码并与3D-UNet的主要分支对齐,这增加了训练难度和模型参数;第二,他们通常使用时序Transformer对视频帧之间的时序依赖性进行建模,但Transformer的复杂度与生成时间的长度成二次关系,这限制了生成视频的时序长度。典型的方法只能生成24帧视频,这限制了实际部署的可能性。尽管时序重合的滑动窗口策略可以生成较长的视频,但团队作者发现这种方法容易导致转换不流畅和剪辑重叠关节处外观不一致的问题。
【/h/]为了解决这些问题,来自华中科技大学、阿里巴巴和中国科学技术大学的研究团队提出了UniAnimate框架,以实现高效和长期的人类视频生成。
【/h/]方法介绍
【/h/]【/h/]UniAnimate框架首先将参考图像、手势引导和含噪视频映射到特征空,然后使用统一的视频扩散模型同时处理参考图像和视频主干分支的表观对齐和视频去噪任务,从而实现高效的特征对齐和连贯的视频生成。
【/h/]其次,研究团队还提出了统一的噪声输入,支持基于第一帧的随机噪声输入和条件噪声输入。随机噪声输入可以与参考图像和手势序列协作来生成视频,而基于第一帧的条件噪声输入将视频的第一帧作为条件输入来生成后续视频。这样,可以通过将前一个视频片段的最后一帧作为下一个片段的第一帧来生成推理,以此类推。
【/h/]最后,为了进一步高效处理长序列,研究团队探索了一种基于state空模型(Mamba)的时间建模架构,作为原始计算密集型时间序列转换器的替代方案。实验表明,基于顺序Mamba的体系结构可以实现与顺序Transformer相似的效果,但它需要更少的内存开销。
【/h/]通过UniAnimate框架,用户可以生成高质量的连续人类舞蹈视频。值得一提的是,通过多次使用第一帧调节策略,可以生成持续一分钟的高清视频。与传统方法相比,UniAnimate具有以下优势:
【/h/]这些特性使得UniAnimate框架在合成高质量和长时间的人类跳舞视频方面表现出色,这为更广泛的应用提供了新的可能性。
【/h/]生成结果的示例
1。基于合成图片的舞蹈视频生成。
2。基于真实图片的舞蹈视频生成。
3。基于粘土风格图片的舞蹈视频生成。
4。马斯克跳舞。
5。Yann LeCun跳舞。
6。基于其他跨领域图片的舞蹈视频生成。
7。一分钟舞蹈视频生成。
【/h/],持续时间01:05
【/h/]有关原始MP4视频和更多高清视频示例,请参考本文的项目主页,https://unianimate.github.io/.
【/h/]实验对比分析
1。在抖音数据集上与现有方法的定量对比实验。
【/h/]如上表所示,UniAnimate方法在L1、PSNR、SSIM、LPIPS等图像指标和FVD等视频指标上取得了最佳结果,这表明UniAnimate可以生成高保真的结果。
2。与现有方法的定性比较实验。
【/h/]从上面的定性对比实验也可以看出,与MagicAnimate和Animate Anyone相比,UniAnimate方法可以生成更好的连续结果,并且没有明显的伪影,这表明了UniAnimate的有效性。
3。剥离实验。
【/h/]从上表中的数值结果可以看出,UniAnimate中使用的参考姿态和统一视频扩散模型在提高性能方面发挥了关键作用。
4。长视频生成策略的比较。
【/h/]从上图可以看出,常用的时序重叠的滑动窗口策略容易导致过渡不连续。研究团队认为,这是因为不同窗口在时序重叠部分的去噪难度不一致,这使得生成的结果不同,而直接平均会导致明显的变形或失真,并且这种不一致会错误地传播。本文使用的第一帧视频连续生成方法可以生成平滑过渡。
【/h/]更多实验对比结果及分析请参考原论文。
【/h/]总之,UniAnimate的实例结果和定量对比结果都很不错。我们期待UniAnimate在影视制作、虚拟现实和游戏行业等各个领域的应用,为用户带来更加逼真、精彩的人类形象动画体验。