5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D
声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者陈琳,授权站长之家转载发布。
使用大模型合成的数据可以显著提高3D生成能力?
上海交通大学和香港中文大学的团队真的做到了。
他们推出了Bootstrap3D框架,结合微调的多模态大模型,具有3D感知。该框架可以自动生成任意数量的高质量多视图图像数据,有助于多视图扩散模型的训练。
结果表明,新的合成数据可以显著提高现有3D生成模型中生成对象的美学质量和文本提示的控制能力。
目前Bootstrap3D的数据集已经完全开源。
用大模型合成数据
近年来,3D内容生成技术迎来了快速发展。然而,与2D图像生成相比,生成高质量的三维物体仍然面临许多挑战。
核心瓶颈是缺乏3D数据,尤其是高质量的数据。
为了解决这个问题,研究团队引入了Bootstrap3D框架,通过自动生成多视点图像数据,解决了3D内容生成中高质量数据不足的问题。
具体来说,这个框架使用2D和视频扩散模型来生成多视图图像,并使用微调的3D多模态模型来筛选生成数据的质量并重写描述。
通过这种方式,Bootstrap3D可以自动生成大量高质量的3D图像数据,从而“自举”出足够大的数据集来辅助训练更好的多视图扩散模型。
这里,在计算机科学和机器学习领域,“Bootstrap”通常是指一种通过自举来解决问题的技术。
用于构建管道的数据
具体来说,数据构建管道是该框架的核心创新之一,旨在自动生成高质量的多视点影像数据,并附有详细的描述文本。
主要分为以下步骤:
文本提示生成:首先,利用强大的大语言模型(如GPT-4)生成大量有创意、多样的文本提示。这些文字提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。
图像生成:利用2D扩散模型和视频扩散模型,根据生成的文字提示生成单视图图像。通过结合2D和视频扩散模型的优点,生成的图像具有更高的初始质量和多样性。
多视角合成:利用视频扩散模型将单视角图像展开成多视角图像,生成不同角度的视图。这一步保证了各个对象从不同角度的一致性,解决了传统方法中视图不一致的问题。
质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视点图像进行严格的质量筛选。过滤过程不仅会过滤掉低质量的数据,还会重写描述文本,使其更加准确和详细。
利用这些数据构建管道,Bootstrap3D可以生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。
这一创新不仅解决了3D数据稀缺的问题,还显著提高了模型生成效果和对文本提示的响应能力。
训练时间步重排(TTR)
团队还提出了一种创新的训练时步重排策略(TTR)来解决多视图扩散模型训练中的图像质量和视图一致性问题。
TTR策略的核心思想是在训练过程中灵活调整合成数据和真实数据的训练时间步长,从而优化去噪过程的不同阶段。
去噪过程的阶段特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频分量);在后面的时间步骤中,主要生成图像的细节和纹理(高频分量)。这个阶段特征为我们提供了调整训练策略的机会。
限制合成数据的训练时间步长:由于合成数据可能存在一定的模糊性和失真,我们在训练时限制了时间步长范围。具体来说,我们让合成数据主要参与前期去噪阶段,以保证其对整体结构的贡献,把后期细节留给质量更高的真实数据。
分阶段训练策略:通过将合成数据限制在一个较大的时间步长范围内(比如200到1000步),确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图的一致性。同时真实数据参与所有时间步的训练,提供高频细节和真实感。这种分阶段训练策略有效地平衡了图像质量和视图一致性。
实验证明效果显著:大量实验结果表明,采用TTR策略的多视图扩散模型在图文对齐、图像质量和视图一致性方面表现良好。该策略不仅保留了原有2D扩散模型的优点,而且显著改善了多视图生成的效果。
通过训练TTR,Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量的3D内容生成奠定了坚实的基础。
嗯,Bootstrap3D生成的数据集是完全开源的,任何研究者和开发者都可以免费访问和使用。
纸张地址:
https://arxiv . org/ABS/2406.00093/
项目主页:
https://sunzey . github . io/bootstrap 3d/
数据集地址:
https://hugging face . co/datasets/Zery/BS-obj averse/