5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D

ze2年前默认599

声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者陈琳,授权站长之家转载发布。

使用大模型合成的数据可以显著提高3D生成能力?

上海交通大学和香港中文大学的团队真的做到了。

他们推出了Bootstrap3D框架,结合微调的多模态大模型,具有3D感知。该框架可以自动生成任意数量的高质量多视图图像数据,有助于多视图扩散模型的训练。

结果表明,新的合成数据可以显著提高现有3D生成模型中生成对象的美学质量和文本提示的控制能力。

目前Bootstrap3D的数据集已经完全开源。

用大模型合成数据

近年来,3D内容生成技术迎来了快速发展。然而,与2D图像生成相比,生成高质量的三维物体仍然面临许多挑战。

核心瓶颈是缺乏3D数据,尤其是高质量的数据。

为了解决这个问题,研究团队引入了Bootstrap3D框架,通过自动生成多视点图像数据,解决了3D内容生成中高质量数据不足的问题。

具体来说,这个框架使用2D和视频扩散模型来生成多视图图像,并使用微调的3D多模态模型来筛选生成数据的质量并重写描述。

通过这种方式,Bootstrap3D可以自动生成大量高质量的3D图像数据,从而“自举”出足够大的数据集来辅助训练更好的多视图扩散模型。

这里,在计算机科学和机器学习领域,“Bootstrap”通常是指一种通过自举来解决问题的技术。

用于构建管道的数据

具体来说,数据构建管道是该框架的核心创新之一,旨在自动生成高质量的多视点影像数据,并附有详细的描述文本。

主要分为以下步骤:

文本提示生成:首先,利用强大的大语言模型(如GPT-4)生成大量有创意、多样的文本提示。这些文字提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。

图像生成:利用2D扩散模型和视频扩散模型,根据生成的文字提示生成单视图图像。通过结合2D和视频扩散模型的优点,生成的图像具有更高的初始质量和多样性。

多视角合成:利用视频扩散模型将单视角图像展开成多视角图像,生成不同角度的视图。这一步保证了各个对象从不同角度的一致性,解决了传统方法中视图不一致的问题。

质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视点图像进行严格的质量筛选。过滤过程不仅会过滤掉低质量的数据,还会重写描述文本,使其更加准确和详细。

利用这些数据构建管道,Bootstrap3D可以生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。

这一创新不仅解决了3D数据稀缺的问题,还显著提高了模型生成效果和对文本提示的响应能力。

训练时间步重排(TTR)

团队还提出了一种创新的训练时步重排策略(TTR)来解决多视图扩散模型训练中的图像质量和视图一致性问题。

TTR策略的核心思想是在训练过程中灵活调整合成数据和真实数据的训练时间步长,从而优化去噪过程的不同阶段。

去噪过程的阶段特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频分量);在后面的时间步骤中,主要生成图像的细节和纹理(高频分量)。这个阶段特征为我们提供了调整训练策略的机会。

限制合成数据的训练时间步长:由于合成数据可能存在一定的模糊性和失真,我们在训练时限制了时间步长范围。具体来说,我们让合成数据主要参与前期去噪阶段,以保证其对整体结构的贡献,把后期细节留给质量更高的真实数据。

分阶段训练策略:通过将合成数据限制在一个较大的时间步长范围内(比如200到1000步),确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图的一致性。同时真实数据参与所有时间步的训练,提供高频细节和真实感。这种分阶段训练策略有效地平衡了图像质量和视图一致性。

实验证明效果显著:大量实验结果表明,采用TTR策略的多视图扩散模型在图文对齐、图像质量和视图一致性方面表现良好。该策略不仅保留了原有2D扩散模型的优点,而且显著改善了多视图生成的效果。

通过训练TTR,Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量的3D内容生成奠定了坚实的基础。

嗯,Bootstrap3D生成的数据集是完全开源的,任何研究者和开发者都可以免费访问和使用。

纸张地址:

https://arxiv . org/ABS/2406.00093/

项目主页:

https://sunzey . github . io/bootstrap 3d/

数据集地址:

https://hugging face . co/datasets/Zery/BS-obj averse/

相关文章

女大学生于甜甜,你火了!

来源:新华网微信综合中国青年报(ID: zqbcyo)、@大米视频、网友评论。 版权归原作者所有。如有侵权,请及时联系。 最近 一个“00后”大学生于甜甜。 冲上了热门榜单她的经历 也吸引了无数网友...

快手不甘心

快手不甘心

声明:本文来自于微信公众号伯虎财经(bohuFN),作者:路费,授权站长之家转载发布。 虽然同为短视频巨头,但市场对于快手和抖音的期待显然是不同的。 三季度的财报发布后,快手迎来了大跌,接连两日跌幅...

9万多元单价的房子,临近收房发现与宣传不符?业主:“没想到处处减配,高价低质”

以下文章来源于每经房产,作者包晶晶 距离交房还有不到 5 个月,上海尚海悦庭项目的业主们却发现,这个千万元级别的高端改善项目,与购房时的宣传并不相符。 上海尚海悦庭小区 每经记者 包晶晶 摄 这...

新疆阿克苏地区拜城县发生5.6级地震

【/h/]据中国地震台网正式测定,4月10日22时56分在新疆阿克苏地区拜城县发生5.6级地震,震源深度16千米。震中位于北纬41.98度、东经82.56度。【/h/]基本背景【/h/]附近村镇:本次...

亲友团驾到!我家那小子应到4人实到24人 嘉宾“摇人”助阵惊喜十足!!

亲友团驾到!我家那小子应到4人实到24人 嘉宾“摇人”助阵惊喜十足!!

  我家那小子应到4人实到24人   【我家那小子应到4人实到24人】12月9日,一则引人注目的消息迅速传开,综艺《我家那小子》在12月7日盛大开播,原定的节目嘉宾应到4人,然而实际到场却多达24人...

纠偏仅退款,淘宝拿出“黑白名单”

纠偏仅退款,淘宝拿出“黑白名单”

声明:本文来自于微信公众号字母榜,作者:谭宵寒,授权站长之家转载发布。 电商平台们正集体纠偏仅退款政策。 字母榜获悉,上周起,淘宝将陆续针对仅退款政策做一系列调整。在商家端,对服务体验分较高的商家,...