5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D

ze11个月前默认587

声明:本文来自微信微信官方账号量子位(ID:QbitAI),作者陈琳,授权站长之家转载发布。

使用大模型合成的数据可以显著提高3D生成能力?

上海交通大学和香港中文大学的团队真的做到了。

他们推出了Bootstrap3D框架,结合微调的多模态大模型,具有3D感知。该框架可以自动生成任意数量的高质量多视图图像数据,有助于多视图扩散模型的训练。

结果表明,新的合成数据可以显著提高现有3D生成模型中生成对象的美学质量和文本提示的控制能力。

目前Bootstrap3D的数据集已经完全开源。

用大模型合成数据

近年来,3D内容生成技术迎来了快速发展。然而,与2D图像生成相比,生成高质量的三维物体仍然面临许多挑战。

核心瓶颈是缺乏3D数据,尤其是高质量的数据。

为了解决这个问题,研究团队引入了Bootstrap3D框架,通过自动生成多视点图像数据,解决了3D内容生成中高质量数据不足的问题。

具体来说,这个框架使用2D和视频扩散模型来生成多视图图像,并使用微调的3D多模态模型来筛选生成数据的质量并重写描述。

通过这种方式,Bootstrap3D可以自动生成大量高质量的3D图像数据,从而“自举”出足够大的数据集来辅助训练更好的多视图扩散模型。

这里,在计算机科学和机器学习领域,“Bootstrap”通常是指一种通过自举来解决问题的技术。

用于构建管道的数据

具体来说,数据构建管道是该框架的核心创新之一,旨在自动生成高质量的多视点影像数据,并附有详细的描述文本。

主要分为以下步骤:

文本提示生成:首先,利用强大的大语言模型(如GPT-4)生成大量有创意、多样的文本提示。这些文字提示涵盖了各种场景和物体,为后续的图像生成提供了丰富的素材。

图像生成:利用2D扩散模型和视频扩散模型,根据生成的文字提示生成单视图图像。通过结合2D和视频扩散模型的优点,生成的图像具有更高的初始质量和多样性。

多视角合成:利用视频扩散模型将单视角图像展开成多视角图像,生成不同角度的视图。这一步保证了各个对象从不同角度的一致性,解决了传统方法中视图不一致的问题。

质量筛选和描述重写:通过我们微调的3D感知模型MV-LLaVA,对生成的多视点图像进行严格的质量筛选。过滤过程不仅会过滤掉低质量的数据,还会重写描述文本,使其更加准确和详细。

利用这些数据构建管道,Bootstrap3D可以生成大量高质量的3D图像数据,为多视图扩散模型的训练提供了坚实的基础。

这一创新不仅解决了3D数据稀缺的问题,还显著提高了模型生成效果和对文本提示的响应能力。

训练时间步重排(TTR)

团队还提出了一种创新的训练时步重排策略(TTR)来解决多视图扩散模型训练中的图像质量和视图一致性问题。

TTR策略的核心思想是在训练过程中灵活调整合成数据和真实数据的训练时间步长,从而优化去噪过程的不同阶段。

去噪过程的阶段特征:在扩散模型中,去噪过程通常分为不同的时间步。在早期时间步,去噪过程主要关注图像的整体结构和形状(低频分量);在后面的时间步骤中,主要生成图像的细节和纹理(高频分量)。这个阶段特征为我们提供了调整训练策略的机会。

限制合成数据的训练时间步长:由于合成数据可能存在一定的模糊性和失真,我们在训练时限制了时间步长范围。具体来说,我们让合成数据主要参与前期去噪阶段,以保证其对整体结构的贡献,把后期细节留给质量更高的真实数据。

分阶段训练策略:通过将合成数据限制在一个较大的时间步长范围内(比如200到1000步),确保这些数据在去噪过程中主要影响图像的低频成分,从而保持视图的一致性。同时真实数据参与所有时间步的训练,提供高频细节和真实感。这种分阶段训练策略有效地平衡了图像质量和视图一致性。

实验证明效果显著:大量实验结果表明,采用TTR策略的多视图扩散模型在图文对齐、图像质量和视图一致性方面表现良好。该策略不仅保留了原有2D扩散模型的优点,而且显著改善了多视图生成的效果。

通过训练TTR,Bootstrap3D框架成功解决了合成数据质量参差不齐的问题,显著提升了多视图扩散模型的性能,为高质量的3D内容生成奠定了坚实的基础。

嗯,Bootstrap3D生成的数据集是完全开源的,任何研究者和开发者都可以免费访问和使用。

纸张地址:

https://arxiv . org/ABS/2406.00093/

项目主页:

https://sunzey . github . io/bootstrap 3d/

数据集地址:

https://hugging face . co/datasets/Zery/BS-obj averse/

相关文章

孩子没人带!宝妈不听同事劝阻带娃到机械厂上班 回呛同事“关你什么事” 网友劝说:不要等出事才后悔!!

孩子没人带!宝妈不听同事劝阻带娃到机械厂上班 回呛同事“关你什么事” 网友劝说:不要等出事才后悔!!

  宝妈不听同事劝阻带娃到机械厂上班   【宝妈不听同事劝阻带娃到机械厂上班】2月22日,江苏一名宝妈在机械厂坚持带孩子上班,尽管多次遭到老师傅劝阻,却执意带着年幼的孩子一同上班。这一行为在机械厂这一...

别被骗了!这款针对老年人的免费“机顶盒”是电诈工具

穿着通信公司“工作服” 以信号维护、网速升级等免费服务为由。 诱骗老年居民开门安装“机顶盒” 不知道这种送货上门的“福利” 这是电信网络诈骗的“新工具” 而所谓的安装师傅也是诈骗团伙“帮凶” 11月...

今年又帮李华了 李华什么时候才考上大学?

今年又帮李华了 李华什么时候才考上大学?

今年我又帮助了李华【/h/]【今年我又帮李华了】李华什么时候考上大学?近年来,李华一直是高考作文题的常客。今年也不例外,李华也被网友调侃了!【/h/]6月8日下午,北京市2024年高考英语科目落下帷幕...

消息传来,瑞幸败诉!

Luckin coffee起诉泰国某公司商标侵权,以败诉告终。 12月1日,泰国知识产权与国际贸易法院宣布,对中国Luckin coffee公司起诉泰国皇家50R集团商标著作权侵权一案做出终审判决...

生日当天,浙江小伙泪崩:“终于找到妈妈了!”

& quot;儿子,妈妈好害怕这样的生活。 我甚至看不见你..." 10月26日 在陕西Xi安的一个小饭馆里。老丁和他的儿子小丁紧紧地拥抱在一起。 哭成泪人。 嘉善和Xi安相距1300多公里。...

全楼都听见指甲抓墙声?明明隔壁是空屋,上海爷叔称报警81次

近日,家住静安区芷江西路 254 号 " 海运芷江大楼 " 的业主白女士向《新闻坊》同心服务平台报料。 今年 5 月至 7 月,短短不到两个月的时间,走廊里自家的电表开关被人恶意拉闸高达 134 次...