支持合成一分钟高清视频,华科等提出人类跳舞视频生成新框架UniAnimate

ze1年前默认566

【/h/]免责声明:本文来自微信微信官方账号机器之心(ID:almosthuman2014)。作者:机器之心,经站长之家授权转载发布。

【/h/]人体跳舞视频的生成是一项引人注目且具有挑战性的可控视频合成任务,旨在根据输入的参考图像和目标姿势序列生成高质量的逼真连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演进,舞蹈视频生成任务取得了前所未有的进展并展现出广泛的应用潜力。

【/h/]现有的方法大致可以分为两组。第一组通常基于生成对抗性网络(GAN),该网络通过使用中间手势指导表示来扭曲参考外观,并通过先前扭曲的目标生成合理的视频帧。然而,基于生成对抗网络的方法通常存在训练不稳定和泛化能力差的问题,从而导致明显的伪像和帧抖动。

【/h/]第二组使用扩散模型合成逼真的视频。这些方法兼具训练稳定和迁移能力强的优点,性能优于基于GAN的方法,如Disco、MagicAnimate、Animate Anyone、Champ等。

【/h/]尽管基于扩散模型的方法取得了显著进展,但现有方法仍存在两个局限性:第一,需要额外的参考网络对参考图像特征进行编码并与3D-UNet的主要分支对齐,这增加了训练难度和模型参数;第二,他们通常使用时序Transformer对视频帧之间的时序依赖性进行建模,但Transformer的复杂度与生成时间的长度成二次关系,这限制了生成视频的时序长度。典型的方法只能生成24帧视频,这限制了实际部署的可能性。尽管时序重合的滑动窗口策略可以生成较长的视频,但团队作者发现这种方法容易导致转换不流畅和剪辑重叠关节处外观不一致的问题。

【/h/]为了解决这些问题,来自华中科技大学、阿里巴巴和中国科学技术大学的研究团队提出了UniAnimate框架,以实现高效和长期的人类视频生成。

【/h/]方法介绍

【/h/]【/h/]UniAnimate框架首先将参考图像、手势引导和含噪视频映射到特征空,然后使用统一的视频扩散模型同时处理参考图像和视频主干分支的表观对齐和视频去噪任务,从而实现高效的特征对齐和连贯的视频生成。

【/h/]其次,研究团队还提出了统一的噪声输入,支持基于第一帧的随机噪声输入和条件噪声输入。随机噪声输入可以与参考图像和手势序列协作来生成视频,而基于第一帧的条件噪声输入将视频的第一帧作为条件输入来生成后续视频。这样,可以通过将前一个视频片段的最后一帧作为下一个片段的第一帧来生成推理,以此类推。

【/h/]最后,为了进一步高效处理长序列,研究团队探索了一种基于state空模型(Mamba)的时间建模架构,作为原始计算密集型时间序列转换器的替代方案。实验表明,基于顺序Mamba的体系结构可以实现与顺序Transformer相似的效果,但它需要更少的内存开销。

【/h/]通过UniAnimate框架,用户可以生成高质量的连续人类舞蹈视频。值得一提的是,通过多次使用第一帧调节策略,可以生成持续一分钟的高清视频。与传统方法相比,UniAnimate具有以下优势:

【/h/]这些特性使得UniAnimate框架在合成高质量和长时间的人类跳舞视频方面表现出色,这为更广泛的应用提供了新的可能性。

【/h/]生成结果的示例

1。基于合成图片的舞蹈视频生成。

2。基于真实图片的舞蹈视频生成。

3。基于粘土风格图片的舞蹈视频生成。

4。马斯克跳舞。

5。Yann LeCun跳舞。

6。基于其他跨领域图片的舞蹈视频生成。

7。一分钟舞蹈视频生成。

【/h/],持续时间01:05

【/h/]有关原始MP4视频和更多高清视频示例,请参考本文的项目主页,https://unianimate.github.io/.

【/h/]实验对比分析

1。在抖音数据集上与现有方法的定量对比实验。

【/h/]如上表所示,UniAnimate方法在L1、PSNR、SSIM、LPIPS等图像指标和FVD等视频指标上取得了最佳结果,这表明UniAnimate可以生成高保真的结果。

2。与现有方法的定性比较实验。

【/h/]从上面的定性对比实验也可以看出,与MagicAnimate和Animate Anyone相比,UniAnimate方法可以生成更好的连续结果,并且没有明显的伪影,这表明了UniAnimate的有效性。

3。剥离实验。

【/h/]从上表中的数值结果可以看出,UniAnimate中使用的参考姿态和统一视频扩散模型在提高性能方面发挥了关键作用。

4。长视频生成策略的比较。

【/h/]从上图可以看出,常用的时序重叠的滑动窗口策略容易导致过渡不连续。研究团队认为,这是因为不同窗口在时序重叠部分的去噪难度不一致,这使得生成的结果不同,而直接平均会导致明显的变形或失真,并且这种不一致会错误地传播。本文使用的第一帧视频连续生成方法可以生成平滑过渡。

【/h/]更多实验对比结果及分析请参考原论文。

【/h/]总之,UniAnimate的实例结果和定量对比结果都很不错。我们期待UniAnimate在影视制作、虚拟现实和游戏行业等各个领域的应用,为用户带来更加逼真、精彩的人类形象动画体验。

相关文章

不畏威胁!武契奇排除万难抵俄后在红场发声 将出席庆典,会继续为了塞尔维亚奋斗!

不畏威胁!武契奇排除万难抵俄后在红场发声 将出席庆典,会继续为了塞尔维亚奋斗!

武契奇排除万难抵俄后在红场发声   【武契奇排除万难抵俄后在红场发声】当地时间5月7日傍晚,塞尔维亚总统武契奇抵达俄罗斯莫斯科,将出席伟大卫国战争胜利80周年庆典。现身红场,表示会继续为了塞尔维亚奋斗...

女演员孙冉冉(化名)涉嫌诈骗,遭上海警方传唤

2023年12月11日晚。在北京警方、上海警方的配合下对于一个叫孙然(化名)的女人被依法传唤。孙冉冉曾经是一名演员。在外人看来,前途一片光明。那她为什么?成为犯罪嫌疑人?要从2023年底说起。胡雯(化...

2024 AI搜索江湖,三大门派围攻光明顶 | 年终复盘

2024 AI搜索江湖,三大门派围攻光明顶 | 年终复盘

声明:本文来自于微信公众号 光锥智能,作者:白 鸽 时值年末,AI搜索赛道却又再起波澜,而这一次,各大巨头们纷纷开始出手。 11月,腾讯旗下搜狗输入法宣布上线AI搜索、AI快查等功能的同时,还同步推...

广发银行乌鲁木齐分行原党委书记、行长陈峻晖被开除党籍和公职

【/h/]财联社5月22日讯据国家监委驻中国纪检监察组、辽宁省监察委员会消息,日前,国家监委驻中国纪检监察组、辽宁省抚顺市监察委员会对广发银行乌鲁木齐分行原书记、行长陈俊辉严重违纪违法问题进行了纪律审...

海南回应:高考语文卷因印刷错误未发条形码 网友:世界就是巨大的草台班子!!

海南回应:高考语文卷因印刷错误未发条形码 网友:世界就是巨大的草台班子!!

海南回应高考语文试卷未发条形码。【海南回应高考语文试卷未配条形码】高考是关乎百万学子命运的重要时刻,但海南省部分考生却发现自己的语文试卷缺少至关重要的条形码。一时间,大众的目光聚焦于此,质疑、担忧甚至...

2025年,MCN走到了“分水岭”

2025年,MCN走到了“分水岭”

声明:本文来自于微信公众号 新播场,作者:场妹,授权站长之家转载发布。 擅长吸引流量的MCN,或许也容易遭到流量反噬。 春节假期前夕,因为签约的网红艺人张大大被指霸凌工作人员一事,头部MCN机构无忧...