AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题
声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者杨宇,由授权站长之家转载发布。
在AIGC时代,视频创作确实与众不同。
就像这样,轻轻一圈,选中的目标立刻变成单独的图层,然后丝滑的嵌入到不同的背景视频中,场景变换如此轻松~
如果你想调整镜头角度交给AI,也可以一键完成:
您还可以一键删除和修改目标:
后期不用加班弄手抽筋(doge)了。
行!沉重!点!这不是实验室里单一的技术演示,而是即将开放内测以便创作者直接使用的一站式AI视频创作平台——“寻光”。
也就是说,剧本创作、镜头设计、视频素材剪辑等传统上分散在不同制作流程中的步骤,现在都可以在AI的加持下,在同一个平台上顺利完成。
这是阿里达摩院在上海世界人工智能大会上带来的最新惊喜。
演示一出,观众坐不住了。
而达摩院官方也透露了AI视频领域新成果背后更大的“野心”:
而不是黑脸田鸡,我们应该走自己的路,希望让AI生产力更快地匹配人类的想象力。
“寻梦光影间”
所谓寻光,就是“光影之间的寻梦”:
它通过人工智能技术提供了一种全新的视频创作模式。
与今年备受关注的AI视频生成模型不同,黑脸田鸡专注于“黑脸田鸡之后视频工作流程的改变”。
达摩院认为,黑脸田鸡等AI视频生成模型已经给了人们彻底改变视频制作模式的想象空间,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解和生成对象的一致性,仍然是当前算法面临的一大挑战。
另一方面,行业内没有统一的AI视频剪辑平台,让创作者一站式体验AI加持的视频创作全过程。
比如OpenAI的创始成员Andrej Karpathy最近播放了AI视频,制作了AI版的《傲慢与偏见》。
在制作这部短片的过程中,他使用的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……...他自己抱怨道:
说实话,这个工作流程很乱。工具之间有大量的复制和粘贴。我花了大约一个小时,用三个片段做了一个简单的视频。
这里有巨大的机会。谁在打造100% AI原生视频制作平台?
达摩院搭建了寻光平台,定位为PUGC一站式AI视频创作平台,针对上述问题,以AI能力重塑传统视频制作全流程。
具体来说,寻光可以辅助用户创建脚本、拆分视图等。,并支持生成和上传素材的丰富AI编辑,包括角色控制、场景控制、镜像传送控制、目标添加/消除/修改等10多项功能。
而在交互方面,它专注于“让视频剪辑像操作PPT一样简单”。
以分割镜头设计为例,上传到光线搜索的原始视频素材会被算法切割成多个分割镜头。
在creation 空 room中,用户可以通过简单的拖放操作轻松查看每个镜头并进行调整。
在新搭建的空白镜中,寻光平台除了添加已有素材外,还支持用户调用多种多模态生成模型,产生新的内容。
【/h/]在编辑功能上,寻光强调精细化的编辑和控制:在AI的加持下,根据用户意图,在语义层面而非像素层面实现编辑;同时,视频中的人体、人脸、前景、背景等任何局部物体都可以进行精细的编辑和修改。
现场,达摩院视觉技术实验室资深算法专家陈伟华重点介绍了基于视频图层的编辑能力。
以前景层功能为例,用户可以通过文字输入生成一个符合描述的透明背景的视频,并且可以一键将其与其他背景视频融合。
寻光还支持拆层功能。当用户在视频的第一帧中选择想要提取的对象时,算法会自动跟踪并拆解整个视频中对应的目标,形成一个独立的视频层,背景透明。
头发飘逸,纽扣精致的那种:
此外,在视频全局元素编辑方面,寻光平台在风格转移方面提供了20+种不同风格。
在镜像传送控制上,可以支持左右平移、上下平移、推缩小、左右环绕等。
在视频局部元素编辑方面,除了目标消除,寻光平台还可以实现精准的人脸控制:
轻拉实现运动控制:
从这个角度来说,寻光可以说是集成了市面上最完整的AI剪辑功能,AI一个完整的视频制作工作流程。相比于在各种工具之间跳转,在传统工作流程中插入AI能力更加方便高效。
重塑视频创作工作流
探索更了解物理世界规律、生成时间更长、生成效果更惊人的多模态模型,是工业界和学术界都非常关注的方向。
但当更强大的AI问世时,人们能否更快地掌握这种新型生产力,也是一个值得关注的话题。
卡帕西开始话题后,很多网友表示确实击中了痛点:
从一个工具转移到另一个工具会破坏工作状态,说实话,这限制了这些工具的效率提升。
AI视频创作需要统一的UI。
陈伟华也在WAIC现场发表了讲话:
今天,我们正处在AI视频一代的大变革中。“欲善其事,必先利其器。”我们希望光学影像创作平台是每个人手中的利器,是每个人专属的影像工作室。在这个平台上,AI和创作者可以更紧密、更高效地合作。
为此,寻光平台背后的达摩院视觉技术实验室做了大量的技术储备。
本实验室致力于多模态视觉信号的理解和生成技术的研究。目前重点研究方向包括更精准的图像/视频/3D内容生成、更可控的图像/视频/3D内容编辑、更高效的生成框架、多模态理解-生成框架等。
AIGC在全球掀起热潮,其核心在于带来生产力彻底变革的想象力空。
现在,解放生产力的第一步已经付诸实践。你期待吗?
官网地址:
https://xunguang . damo-vision . com/
— End—