Dive3D – 北大联合小红书推出的文本到3D生成框架

Dive3D是什么

Dive3D是北京大学和小红书公司合作推出的文本到3D生成框架。框架基于分数的匹配（Score Implicit Matching，SIM）损失替代传统的KL散度目标，有效避免模式坍塌问题，显著提升3D生成内容的多样性。Dive3D在文本对齐、人类偏好和视觉保真度方面表现出色，在GPTEval3D基准测试中取得优异的定量结果，证明了在生成高质量、多样化3D资产方面的强大能力。

Dive3D的主要功能

多样化3D内容生成：根据文本提示生成多种风格和细节的3D模型，避免传统方法中常见的模式坍塌问题，即生成结果过于单一和相似。
高质量3D模型生成：支持生成的3D模型具有较高的视觉保真度，包括精细的纹理细节、逼真的几何形状和合理的光照效果等。
良好的文本对齐能力：支持生成的3D模型与输入的文本描述高度匹配，准确地反映文本中提到的各种元素和特征。
支持多种3D表示形式：支持生成不同类型的3D表示，如神经辐射场（NeRF）、高斯点云（Gaussian Splatting）和网格（Mesh）等，满足不同应用场景和用户的需求。

Dive3D的技术原理

分数隐式匹配（Score Implicit Matching，SIM）损失：Dive3D的核心技术之一。传统的基于KL散度的损失函数（如在Score Distillation Sampling，SDS中使用）会导致模式寻求行为，让生成模型倾向于生成高密度区域的样本，限制生成的多样性。SIM损失直接匹配生成内容的概率密度梯度场（分数）和扩散先验的分数，避免KL散度的问题，鼓励模型探索多个高概率区域，在保持保真度的同时提高生成的多样性。
统一的散度视角框架：Dive3D将扩散蒸馏和奖励引导优化整合到一个基于散度的框架中。框架包括三个核心的散度损失，条件扩散先验损失（CDP）、无条件扩散先验损失（UDP）和奖励损失（ER）。基于合理地组合和调整损失的权重，在生成的多样性、文本对齐和视觉质量之间取得平衡。
基于扩散模型的优化：Dive3D用预训练的2D扩散模型（如Stable Diffusion）作为先验知识，基于多视图渲染将3D表示优化为与文本提示相匹配的2D图像。在优化过程中，迭代地对3D模型进行渲染、计算损失并更新模型参数，让生成的3D模型的渲染图像逐渐接近预训练扩散模型所期望的图像分布。
高效的优化算法：为提高优化效率，Dive3D用高效的优化算法和策略。例如，引入分类器自由引导（Classifier-Free Guidance，CFG）技术，在优化过程中更好地平衡文本条件和无条件的生成效果；基于合理设置噪声时间表和优化步长等参数，加快优化收敛速度，减少生成时间。