攻陷短视频后,Sora将需要72万块H100 GPU

ze1年前默认777

【/h/]免责声明:本文来自微信微信官方账号机器之心(ID: Almost Human 2014)。作者:机器之心,经站长之家授权转载发布。

【/h/]在被大规模采用后,黑脸田鸡的推理成本将很快超过训练成本。

【/h/]open ai推出的黑脸田鸡模型可以在各种场景下生成极其逼真的视频,吸引了全世界的目光。

【/h/]机器之心移动组,点赞56

【/h/]最近,投资机构factorial funds发表了一篇博客文章,深入讨论了黑脸田鸡背后的一些技术细节,并讨论了这些视频模型可能产生的影响。

【/h/]最后,本文还讨论了对用于训练黑脸田鸡和其他模型的计算能力的看法,并预测了训练计算和推理计算的计算能力比较,这对估计未来的GPU需求具有重要意义。机器之心整理了这篇文章。

【/h/]本报告的主要调查结果概述如下:

【/h/]总之,黑脸田鸡在视频生成的质量和能力方面取得了巨大进步,但这也可能大大增加对GPU推理计算的需求。

【/h/]苍井空诞生的背景

【/h/]黑脸田鸡是一个扩散模型。扩散模型是图像生成领域的一种流行模型,著名的模型有OpenAI的DALL和Stability AI的Stable Diffusion。最近,Runway、摩根和Pika等公司也在探索视频制作,可能也在使用扩散模式。

【/h/]从广义上讲,扩散模型是一种生成式机器学习模型,它通过在数据中添加随机噪声来逐步向后学习,最终学习创建与其训练的数据(如图像或视频)相似的数据。这些模型从纯噪声模式开始,逐渐去除噪声,然后改进模型,直到将其转换为连贯和详细的输出。

【/h/]扩散过程示意图:逐渐去除噪声,直到输出清晰详细的视频。图片摘自黑脸田鸡技术报告。

【/h/]这与大型语言模型(LLM)的概念明显不同:LLM将一个接一个地重复生成token(这称为自回归采样)。令牌一旦生成,就不会更改。人们可能已经在使用perference或ChatGPT等工具时看到了这种效果:答案会一个字一个字地出现,就像有人在打字一样。

【/h/]SORA的技术细节

【/h/]open ai和黑脸田鸡一起发布了一份技术报告。遗憾的是,这份报告中没有太多细节。然而,其设计似乎深受研究论文“Scalable Diffusion Models with Transformers”的影响,该论文提出了一种基于Transformer的框架,称为DIT(Diffusion Transformers的缩写),用于图像生成。黑脸田鸡似乎已经将这项工作扩展到视频生成领域。因此,结合黑脸田鸡技术报告和DiT论文,我们可以比较准确地理解黑脸田鸡模型的工作原理。

【/h/]黑脸田鸡有三个重要部分:1)它不是在像素空之间而是在隐藏像素空之间执行扩散(也称为潜在扩散);2)它使用变压器架构;3)它似乎使用了非常大的数据集。

【/h/]电位扩散

【/h/]为了理解第一点,即潜在扩散,您可以考虑生成一个图像并使用扩散来生成每个像素。然而,这是非常低效的(例如,512x512图像有262,144个像素)。相反,首先将像素映射到具有一定压缩系数的hidden空表示中,然后在此更紧凑的hidden空表示中执行扩散,最后将hidden空表示解码回pixel空表示。这种映射大大降低了计算复杂度:以64位隐藏空空间为例,只需要生成64x64 = 4,096个表示,而不是在512x512 = 262,144个像素上运行扩散过程。这一思想是论文“使用潜在扩散模型进行高分辨率图像合成”的关键突破,也是稳定扩散技术的基础。

【/h/]从像素(左侧)到潜在表示(右侧的方框网格)的映射。图片摘自黑脸田鸡技术报告。

【/h/]迪特和黑脸田鸡都采用这种方法。黑脸田鸡的另一个考虑是视频具有时间维度:视频是图像的时间序列,也称为帧。从黑脸田鸡的技术报告中可以看出,从像素映射到隐藏空的编码步骤不仅发生在空之间(这意味着压缩每帧的宽度和高度),还发生在时间上(这意味着跨时间压缩)。

【/h/]变压器

【/h/]关于第二点,DiT和黑脸田鸡都用通用的Transformer架构取代了常用的U-Net架构。这一点非常重要,因为DiT论文的作者观察到,通过使用Transformer可以稳定地扩展模型规模:随着训练计算的增加(训练模型的时间延长或模型放大,或两者都有),性能也将得到提高。黑脸田鸡的技术报告还指出,同样的情况也适用于视频,并提供了解释。

【/h/]模型质量如何随着训练计算的增加而提高的描述:基本计算、4次计算和32次计算(从左到右)。视频摘自黑脸田鸡技术报告。

【/h/]这种缩放自由度可以通过所谓的缩放定律来量化,这是一个重要的特征。之前已经在大型语言模型(LLM)和其他模态自回归模型中对其进行了研究。应用缩放以获得更好模型的能力是LLM快速发展的主要驱动力之一。由于图像和视频生成具有相同的特征,我们应该期望相同的缩放方法在这里发挥作用。

【/h/]数据

【/h/]训练黑脸田鸡这样的模型所需的最后一个关键要素是标记数据,本文认为这是黑脸田鸡的秘诀。要训练像黑脸田鸡这样的文本生成视频模型,需要成对的视频和文本描述。OpenAI没有详细介绍他们的数据集,但他们暗示数据集非常庞大:“我们从大型语言模型中汲取了灵感,这些模型通过对互联网规模的数据进行训练而获得了通用能力”。OpenAI还发布了一种用详细文本标签注释图像的方法,该方法用于收集DALLE 3数据集。总体思路是在数据集子集上训练标注模型,然后使用该标注模型自动标注其余数据集。黑脸田鸡的数据集似乎使用了同样的技术。

浅析【/h/]黑脸田鸡的影响

【/h/]本文认为黑脸田鸡有几个重要的影响,如下所示。

【/h/]视频模式真的很有用。

【/h/]SORA生成的视频质量有了明显的提高,无论是细节还是时间一致性都有所改善(例如,该模型可以正确处理物体被暂时遮挡时的持久性,并且可以准确地生成水中的倒影)。本文认为,目前的视频质量足以处理某些类型的场景,并可以在现实世界中应用。黑脸田鸡可能很快会取代一些视频资料的使用。

【/h/]视频生成领域公司市场分布图。

【/h/]但黑脸田鸡仍将面临一些挑战:黑脸田鸡模式的可操作性目前尚不明确。编辑生成的视频既困难又耗时,因为模型输出像素。此外,还需要围绕这些模型建立直观的用户界面和工作流程,以使它们发挥作用。Runway、摩根和Pika等公司以及更多公司(见上图)已经开始解决这些问题。

【/h/]模型缩放对视频模型有效,可以期待进一步的进展。

【/h/]DIT论文的一个重要观点是,如上所述,随着计算量的增加,模型的质量将直接提高。这与观察到的LLM定律相似。因此,随着视频生成模型用越来越多的计算能力进行训练,我们应该期待此类模型的质量会迅速提高。黑脸田鸡清楚地证明了这种方法确实有效,我们希望OpenAI和其他公司在这方面加倍努力。

【/h/]数据生成和数据增强

【/h/]在机器人和自动驾驶汽车领域,数据是稀缺的:没有机器人执行任务或汽车在互联网上运行的实时数据。因此,解决这些问题的方法通常是模拟训练或现实世界中的大规模数据收集(或两者的结合)。然而,由于模拟数据往往不够真实,这两种方法都很难奏效。大规模收集真实世界的数据是昂贵的,而且为罕见事件收集足够的数据也具有挑战性。

【/h/]通过修改某些属性来增强视频的示例。在此示例中,原始视频(左)渲染为郁郁葱葱的丛林环境(右)。图片摘自黑脸田鸡技术报告。

【/h/]本文认为,在这方面,类似于黑脸田鸡的模式将非常有用。类似于黑脸田鸡的模型可以直接用于生成合成数据。黑脸田鸡还可以用于数据增强,将现有视频转换成不同的外观。上图为数据增强后的效果。黑脸田鸡可以将红色汽车在森林道路上行驶的视频转换成郁郁葱葱的丛林风光。使用相同的技术,您可以重新渲染白天和夜晚的场景,或者改变天气状况。

【/h/]模拟和世界模型

【/h/]一个前瞻性的研究方向是学习所谓的世界模型。如果这些世界模型足够精确,机器人可以直接在其中接受训练,或用于规划和搜索。

【/h/]像黑脸田鸡这样的模型似乎是一种直接从视频数据中隐含学习现实世界操作的基本模拟。这种“紧急模拟机制”仍有缺陷,但它令人兴奋:它表明我们可能可以通过视频大规模训练这些世界模型。此外,黑脸田鸡似乎能够模拟非常复杂的场景,如液体、光反射、织物和头发运动。OpenAI甚至将他们的技术报告命名为“作为世界模拟器的视频生成模型”,这表明他们认为这是他们模型最重要的价值。

【/h/]最近,DeepMind的Genie模型也显示出类似的效果:通过仅在游戏视频上进行训练,该模型学会了模拟这些游戏(并制作了新游戏)。在这种情况下,模型甚至可以在不直接观察的情况下学习判断动作。同样,在这些模拟中直接学习也是可以预期的。

【/h/]Google deep mind的“精灵:生成式交互环境”介绍视频。

【/h/]总的来说,本文认为黑脸田鸡和Genie等模型可能非常有用,这将有助于在现实世界的任务中大规模训练智能代理(如机器人)。然而,这些模型也有局限性:因为它们是在pixels空中训练的,所以它们将对每个细节进行建模,例如风如何吹动草地,即使这与手头的任务无关。虽然隐藏空空间被压缩了,但它需要映射回像素,因此大量这样的信息仍然需要保存在隐藏空空间中,因此尚不清楚是否可以在隐藏空空间中进行有效规划。

【/h/]SORA的计算估算

【/h/]Factual Funds喜欢评估模型在训练和推理阶段使用的计算量。这非常有用,因为它可以为预测未来需要多少计算量提供基础。然而,估计这些数据也很困难,因为用于训练黑脸田鸡的模型大小和数据集的详细信息非常少。因此,需要注意的是,本节中的估计结果具有很大的不确定性,应谨慎对待。

【/h/]根据DiT估算黑脸田鸡的训练量。

关于黑脸田鸡的详细信息很少。通过再次回顾DiT论文(该论文显然是黑脸田鸡的基础),我们还可以从其中提供的计算数字中进行推断。最大的DiT模型DiT-XL具有6.75亿个参数,训练期间的总计算预算约为10^21FLOPS.这相当于大约0.4个Nvidia H100使用一个月(或一个H100使用12天)。

【/h/]现在,迪特只是一个图像模型,而黑脸田鸡是一个视频模型。黑脸田鸡可以生成长达1分钟的视频。如果我们假设视频以24fps的速度编码,那么一个视频最多包含1,440帧。从黑脸田鸡像素到电势空的映射似乎被压缩在空和时间之间。如果我们在DiT论文中假设相同的压缩比(8倍),则在dive空中将有180帧。因此,当DiT简单地扩展到视频时,计算放大倍数是DiT的180倍。

【/h/]本文还认为黑脸田鸡参数远大于675M。本文作者估计至少要有20B个参数,所需的计算量是DiT的30倍。

【/h/]最后,本文认为黑脸田鸡的训练数据集比DiT大得多。DiT在批处理大小为256的情况下训练了300万次,也就是说,它对总共7.68亿张图片进行了训练(请注意,由于ImageNet仅包含1400万张图片,因此相同的数据重复了多次)。黑脸田鸡似乎是在混合图像和视频的基础上接受训练的,但除此之外,我们对这个数据集几乎一无所知。因此,本文做了一个简单的假设,即黑脸田鸡的数据集是50%的静态图像和50%的视频,该数据集是DiT使用的数据集的10到100倍。但是,DiT是在相同的数据点上重复训练的,如果有更大的数据集,其性能可能会更好。因此,本文认为4-10倍计算放大倍数的假设较为合理。

【/h/]综上所述,考虑到通过额外数据集计算的低放大率和高放大率的估计值,本文得出以下计算结果:

【/h/]这相当于使用4,211-10,528台Nvidia H100进行一个月的培训。

【/h/]推理和训练计算的比较

【/h/]我们经常考虑的另一个重要因素是训练计算和推理计算之间的比较。从概念上讲,训练计算量很大,但也是一次性成本,只产生一次。相比之下,推理计算量要小得多,但每次使用时都会生成。因此,推理计算将随着用户数量的增加而增加,并随着模型的广泛使用而变得越来越重要。

【/h/]因此,研究“平衡点”非常有用,即推理的计算量大于训练的计算量。

【/h/]DIT(左)和黑脸田鸡(右)之间的训练和推理结果的比较。对于黑脸田鸡,本文中的数据基于上一节中的估计,因此并不完全可靠。训练计算的估计值也有两种:一种是低估计值(假设数据集大小为4倍乘数),另一种是高估计值(假设数据集大小为10倍乘数)。

【/h/]本文再次使用DiT来推断黑脸田鸡。对于DiT,最大的模型(DiT-XL)使用每步524×10^9FLOPS,DiT使用250个扩散步骤来生成单个图像,总计131×10^12FLOPS.我们可以看到,在生成760万张图像后达到了平衡点,然后推理计算占据了主导地位。作为参考,用户每天在Instagram上上传约9500万张图片(数据来源)。

【/h/]对于黑脸田鸡,本文推断FLOPS约为524×109 FLOPS×30×180≈2.8×1015 FLOPS。如果仍然假设每个视频经过250个扩散步骤,则每个视频的总FLOPS为708×10 ^ 15。在生成1530万至3810万分钟的视频后,将达到平衡点,推理计算量将超过训练计算量。作为参考,每天大约有4300万分钟的视频被上传到YouTube。

【/h/]需要注意的是,FLOPS并不是推理的唯一重要因素。例如,内存带宽是另一个重要因素。此外,关于如何减少扩散步骤的研究可能会大大降低计算强度,从而加快推理速度。在训练和推理之间,FLOPS的利用率也会有所不同。在这种情况下,也需要考虑。

【/h/]不同模型的推理计算比较

【/h/]本文还研究了不同模型单位输出的推理计算量如何在不同模式下表示。这样做的目的是了解不同类型模型的推理计算强度,这对计算规划和需求有直接影响。需要强调的是,每种模式的输出单位会有所不同,因为它们运行的模式不同:对于黑脸田鸡来说,单次输出是一分钟的视频;对于DiT,单个输出是512x512px的图片;对于Llama2和GPT-4,单个输出被定义为包含1,000 token文本的单个文档。

【/h/]每个模型的单位推理计算输出比较(黑脸田鸡是一分钟的视频,GPT-4和LLama是21,000个文本令牌,DiT是512x512px的图片)。可以看出,这篇论文估计黑脸田鸡的推理计算成本要高几个数量级。

【/h/]本文比较了黑脸田鸡、DiT-XL、LLama270B和GPT-4,并绘制了它们之间的比较图(使用FLOPS的对数刻度)。对于黑脸田鸡和DiT,本文使用上述推断估计。对于Llama2和GPT-4,本文使用经验公式“FLOPS =2×参数数×生成的令牌数”来估计FLOPS数。对于GPT-4,本文假设该模型是一个混合专家(MoE)模型,每个专家有220B个参数,每个正向传输中有两个专家活跃。然而,对于GPT-4,这些数字尚未得到OpenAI的证实,因此仍需谨慎对待。

【/h/]可以看出,像DiT和黑脸田鸡这样基于扩散的模型的推理成本要高得多:DiT-XL(一个具有6.75亿个参数的模型)消耗的推理计算量大约与LLama2(一个具有70B个参数的模型)相同。我们还可以看到,就推理工作量而言,黑脸田鸡甚至比GPT-4更昂贵。

【/h/]需要再次指出的是,上述许多数据都是估计值,依赖于简化的假设,没有考虑GPU的实际FLOPS利用率、内存容量和内存带宽限制以及推测性解码等高级技术。

【/h/]sora模型获得大量市场份额后所需的推理计算量。

【/h/]根据黑脸田鸡的计算要求,本节推断需要多少个Nvidia H100才能大规模运行类似黑脸田鸡的模型,这意味着人工智能生成的视频在抖音和YouTube等热门视频平台上已经实现了显著的市场渗透。

【/h/]考虑到以下因素,这个数字可能有些保守:

【/h/]这表明,随着生成式人工智能模型变得越来越流行和实用,推理计算将占据主导地位。对于像黑脸田鸡这样基于扩散的模型来说尤其如此。

【/h/]还需要注意的是,扩展模型将进一步大大增加推理计算的需求。另一方面,其中一些问题可以通过更优化的推理技术和其他跨堆栈优化方法来解决。

【/h/]视频内容的创造力推动了对OpenAI的黑脸田鸡等模式的最直接需求。

相关文章

雪乡酒店民宿一炕两床3000元 网友:直接劝退!

雪乡酒店民宿一炕两床3000元 网友:直接劝退!

 B&B向雪酒店一炕两张床3000元。【/h/】【B&B向雪酒店一炕两张床3000元】向雪位于黑龙江省东南部,长白山张广才岭东麓,素有“林海雪原”之称。随着冬天的到来,向雪已经成为许多游客喜爱的赏雪目...

记者:泰山内部发生很严重的事情 到底存在哪些问题?

记者:泰山内部发生很严重的事情 到底存在哪些问题?

记者:泰山内部发生了非常严重的事情。【/h/]【记者:泰山内部发生了严重的事情】最近,山东泰山队陷入了舆论风波。记者陈勇在社交媒体表示,泰山没有拖欠工资,但内部发生了严重的事情。【/h/]陈勇表示,首...

因病取消行程,退票时,上海迪士尼却要证明“男友是我的男友”?

迪士尼的退款太离谱了! 发了身份证原件。 合影还不够。 意外提供公章。 & quot;恋人关系证明”? 最近张女士遇到了一些麻烦。 因为我打算和男朋友在一起 去南京和上海旅游11月27日 张女士在飞...

AI泡沫不可避免!李彦宏敲响警钟:PMF是生存关键

声明:本文来自于微信公众号罗超Pro,授权站长之家转载发布。 10月3日,OpenAI官方宣布成功获得66亿美元(约合人民币466.9亿元)融资。本轮融资结束后,OpenAI估值突破了1500亿美元...

广州地铁透露:今年将试行“闸机常开”!

【/h/]广州地铁计划今年试点“闸机常开”新模式。【/h/]4月26日,广州地铁集团副总经理蔡长军介绍,今年计划试点闸机常开模式——闸机默认保持开启状态,检票即开“零等待”,提高客流通行效率。【/h/...

考生描述英语考试:easy、happy 就是so easy!

考生描述英语考试:easy、happy 就是so easy!

考生描述英语考试:轻松、快乐【/h/]【考生描述英语考试:轻松、快乐】如何描述今年高考英语的难度?对于广州的一些考生来说,简直太容易了!【/h/]6月8日,高考英语考试结束,记者前往广州考点记录考生心...