5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D

ze1年前默认590

声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者陈琳,授权站长之家转载发布。

使用大模型合成的数据可以显著提高3D生成能力?

上海交通大学和香港中文大学的团队真的做到了。

他们推出了Bootstrap3D框架,结合微调的多模态大模型,具有3D感知。该框架可以自动生成任意数量的高质量多视图图像数据,有助于多视图扩散模型的训练。

结果表明,新的合成数据可以显著提高现有3D生成模型中生成对象的美学质量和文本提示的控制能力。

目前Bootstrap3D的数据集已经完全开源。

用大模型合成数据

近年来,3D内容生成技术迎来了快速发展。然而,与2D图像生成相比,生成高质量的三维物体仍然面临许多挑战。

核心瓶颈是缺乏3D数据,尤其是高质量的数据。

为了解决这个问题,研究团队引入了Bootstrap3D框架,通过自动生成多视点图像数据,解决了3D内容生成中高质量数据不足的问题。

具体来说,这个框架使用2D和视频扩散模型来生成多视图图像,并使用微调的3D多模态模型来筛选生成数据的质量并重写描述。

通过这种方式,Bootstrap3D可以自动生成大量高质量的3D图像数据,从而“自举”出足够大的数据集来辅助训练更好的多视图扩散模型。

这里,在计算机科学和机器学习领域,“Bootstrap”通常是指一种通过自举来解决问题的技术。

用于构建管道的数据

具体来说,数据构建管道是该框架的核心创新之一,旨在自动生成高质量的多视点影像数据,并附有详细的描述文本。

主要分为以下步骤:

文本提示生成:首先,利用强大的大语言模型(如GPT-4)生成大量有创意、多样的文本提示。这些文字提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。

图像生成:利用2D扩散模型和视频扩散模型,根据生成的文字提示生成单视图图像。通过结合2D和视频扩散模型的优点,生成的图像具有更高的初始质量和多样性。

多视角合成:利用视频扩散模型将单视角图像展开成多视角图像,生成不同角度的视图。这一步保证了各个对象从不同角度的一致性,解决了传统方法中视图不一致的问题。

质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视点图像进行严格的质量筛选。过滤过程不仅会过滤掉低质量的数据,还会重写描述文本,使其更加准确和详细。

利用这些数据构建管道,Bootstrap3D可以生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。

这一创新不仅解决了3D数据稀缺的问题,还显著提高了模型生成效果和对文本提示的响应能力。

训练时间步重排(TTR)

团队还提出了一种创新的训练时步重排策略(TTR)来解决多视图扩散模型训练中的图像质量和视图一致性问题。

TTR策略的核心思想是在训练过程中灵活调整合成数据和真实数据的训练时间步长,从而优化去噪过程的不同阶段。

去噪过程的阶段特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频分量);在后面的时间步骤中,主要生成图像的细节和纹理(高频分量)。这个阶段特征为我们提供了调整训练策略的机会。

限制合成数据的训练时间步长:由于合成数据可能存在一定的模糊性和失真,我们在训练时限制了时间步长范围。具体来说,我们让合成数据主要参与前期去噪阶段,以保证其对整体结构的贡献,把后期细节留给质量更高的真实数据。

分阶段训练策略:通过将合成数据限制在一个较大的时间步长范围内(比如200到1000步),确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图的一致性。同时真实数据参与所有时间步的训练,提供高频细节和真实感。这种分阶段训练策略有效地平衡了图像质量和视图一致性。

实验证明效果显著:大量实验结果表明,采用TTR策略的多视图扩散模型在图文对齐、图像质量和视图一致性方面表现良好。该策略不仅保留了原有2D扩散模型的优点,而且显著改善了多视图生成的效果。

通过训练TTR,Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量的3D内容生成奠定了坚实的基础。

嗯,Bootstrap3D生成的数据集是完全开源的,任何研究者和开发者都可以免费访问和使用。

纸张地址:

https://arxiv . org/ABS/2406.00093/

项目主页:

https://sunzey . github . io/bootstrap 3d/

数据集地址:

https://hugging face . co/datasets/Zery/BS-obj averse/

相关文章

公开嘲讽!吴宗宪称网红“馆长”没见过世面 直言“三天才赚17万,这也敢拿出来”!

公开嘲讽!吴宗宪称网红“馆长”没见过世面 直言“三天才赚17万,这也敢拿出来”!

吴宗宪称网红“馆长”没见过世面   【吴宗宪称网红“馆长”没见过世面】2025年6月,台湾网红“馆长”陈之汉结束为期6天5夜的大陆直播行程返回台湾后,其行程细节与言论引发岛内舆论热议。台湾综艺天王吴宗...

痛别!著名演员病逝,他的作品家喻户晓

12月7日消息,据国家话剧院今日发布的讣告,著名表演艺术家、国家一级演员李法曾,于2023年12月6日下午17时52分在京逝世,享年82岁。 1985年李法曾主演电视剧《诸葛亮》,这是第一个出现...

一个女生潮牌宣布破产

一个女生潮牌宣布破产

声明:本文来自于微信公众号 投资界 作者:周佳丽,授权站长之家转载发布。 又是唏嘘一幕。 投资界获悉,快时尚女装品牌Forever21的美国零售运营商正式申请破产,第二次进入破产程序。 中国消费者对...

上海文旅局组织专家评审五月天事件 正在进一步核实中!

上海文旅局组织专家评审五月天事件 正在进一步核实中!

上海文化旅游局组织专家对五月天事件进行审查。 【上海市文化旅游局组织专家对五月天事件进行审查】五月天事件持续发酵,上海市文化旅游局、北京市文化市场综合执法总队均表示将进行进一步调查。 目前争议的点是《...

女演员孙冉冉(化名)涉嫌诈骗,遭上海警方传唤

2023年12月11日晚。在北京警方、上海警方的配合下对于一个叫孙然(化名)的女人被依法传唤。孙冉冉曾经是一名演员。在外人看来,前途一片光明。那她为什么?成为犯罪嫌疑人?要从2023年底说起。胡雯(化...

两大CEO多项分歧曝光,OpenAI与微软的“最佳合作”要破裂?

声明:本文来自微信公众号“凤凰网科技”,作者:凤凰网科技,整理:箫雨,授权站长之家转载发布。 北京时间4月29日,据《华尔街日报》报道,OpenAI CEO萨姆·奥特曼(Sam Altman)曾表示...