【AI论文】Step1X-3D：迈向高保真且可控的带纹理3D资产生成

生成式人工智能在文本、图像、音频和视频领域取得了显著进展，但在3D生成领域仍面临数据稀缺、算法局限性和生态系统碎片化等挑战。为此，我们提出了Step1X-3D框架，通过严格的数据管理流程处理超过500万个资产，创建了一个包含200万个高质量3D模型的数据集。该框架采用两阶段3D-native架构，结合混合VAE-DiT几何生成器和基于扩散的纹理合成模块，以提高生成模型的几何精度和纹理保真度。Ste

东临碣石82

1428人浏览 · 2025-05-14 18:00:00

东临碣石82 · 2025-05-14 18:00:00 发布

摘要：虽然生成式人工智能在文本、图像、音频和视频领域取得了显著进展，但由于数据稀缺、算法局限性和生态系统碎片化等根本挑战，3D生成仍然相对不发达。为此，我们提出了Step1X-3D，这是一个开放框架，通过以下方式应对这些挑战：（1）严格的数据管理流程处理>5M资产，创建一个具有标准化几何和纹理属性的2M高质量数据集； (2)一个两阶段3D-native架构，将混合VAE-DiT几何生成器与基于扩散的纹理合成模块相结合；以及（3）模型、训练代码和适应模块的完全开源发布。对于几何生成，混合VAE-DiT组件通过采用基于感知器的潜在编码和锐边采样来产生TSDF表示，以保留细节。基于扩散的纹理合成模块通过几何调节和潜在空间同步来确保跨视图的一致性。基准测试结果表明，其性能达到了最先进的水平，超过了现有的开源方法，同时也达到了专有解决方案的竞争质量。值得注意的是，该框架通过支持将2D控制技术（如LoRA）直接转移到3D合成，独特地连接了2D和3D生成范式。通过同时提高数据质量、算法保真度和可重复性，Step1X-3D旨在为可控3D资产生成的开放研究建立新的标准。Huggingface链接：Paper page，论文链接：2505.07747

研究背景和目的

研究背景

近年来，生成式人工智能（Generative Artificial Intelligence, GAI）在文本、图像、音频和视频领域取得了显著进展，推动了内容创作的自动化和智能化。然而，在三维（3D）内容生成领域，尽管已有一些研究尝试，但整体发展仍相对滞后。这主要归因于以下几个方面的挑战：

数据稀缺性：高质量的3D数据集相对较少，且获取成本高昂。现有的开源3D数据集在数量和质量上均难以满足大规模训练的需求。
算法局限性：3D内容的表示和生成算法复杂度高，且现有的生成模型在几何精度和纹理 fidelity（保真度）方面存在不足。
生态系统碎片化：3D生成领域的开源解决方案与专有解决方案之间存在较大差距，开源模型在性能和功能上往往落后于专有模型。

研究目的

针对上述挑战，本研究旨在开发一个名为Step1X-3D的开放框架，以实现高保真且可控的带纹理3D资产生成。具体目标包括：

构建高质量数据集：通过严格的数据管理流程，处理超过500万个3D资产，创建一个包含200万个高质量3D模型的数据集，这些模型具有标准化的几何和纹理属性。
设计先进的生成架构：提出一种两阶段的3D-native生成架构，结合混合变分自编码器-扩散变压器（VAE-DiT）几何生成器和基于扩散的纹理合成模块，以提高生成模型的几何精度和纹理 fidelity。
推动开源研究：通过开源模型、训练代码和适应模块，促进3D生成领域的开放研究，缩小开源解决方案与专有解决方案之间的差距。

研究方法

数据管理

本研究从公共数据集（如Objaverse、Objaverse-XL等）和私有收藏中收集了超过500万个3D资产。通过严格的数据管理流程，包括低质量纹理消除、水密网格转换和统一表面采样等步骤，最终创建了一个包含200万个高质量3D模型的数据集。其中，约80万个基于公共数据的资产将被公开发布。

生成架构

Step1X-3D采用两阶段的生成架构：

几何生成阶段：使用混合VAE-DiT模型生成截断符号距离函数（TSDF）表示的3D形状。该模型结合了基于感知器的潜在编码和锐边采样技术，以保留几何细节。
纹理合成阶段：利用基于扩散的纹理合成模块，通过几何调节和潜在空间同步，确保跨视图的一致性。该模块首先对几何输出进行后处理，然后使用多视图图像生成扩散模型，结合输入图像和渲染的几何图（法线和位置图）来生成视图一致的纹理。

训练策略

在训练过程中，本研究采用了以下策略：

分阶段训练：首先使用较小的潜在集大小和较高的学习率进行快速收敛训练，然后增加潜在集大小并降低学习率以提高模型容量和精度。
正则化和优化：使用指数移动平均（EMA）策略来平滑参数更新，并采用自适应时间步权重方案来稳定训练。

研究结果

几何生成结果

Step1X-3D在几何生成方面表现出色，能够生成具有丰富几何细节的3D形状。通过多视图法线图的可视化，展示了模型在保持输入图像与3D网格之间强相似性的同时，能够重建出遮挡区域的合理空间结构。

纹理合成结果

在纹理合成方面，Step1X-3D同样表现出色。生成的3D模型具有风格一致的纹理，并在不同输入风格下保持高 fidelity。对于输入图像中的遮挡区域，模型通过保留原始SD-XL参数并结合目标模型的法线图和位置图作为几何指导，实现了合理的视图补全和精确的几何纹理对齐。

定量和定性评估

通过定量指标（如CLIP-Score、Uni3D-I、OpenShape sc-I和OpenShape pb-I）和用户研究，本研究对Step1X-3D与其他SOTA方法进行了全面比较。结果表明，Step1X-3D在几何和纹理维度上均达到了最先进的性能，并在用户研究中获得了与当前最佳方法相当的平均用户偏好评分。

研究局限

尽管Step1X-3D在3D资产生成方面取得了显著进展，但仍存在以下局限性：

网格分辨率限制：目前，本研究将网格转换为TSDF时的网格分辨率为256³，未来工作将致力于提高网格分辨率以实现更精确的几何细节。
纹理组件限制：当前的纹理实现仅限于反照率生成，未来计划扩展此管道以支持输入图像重照明和基于物理的渲染（PBR）材质纹理生成。

未来研究方向

针对Step1X-3D的局限性和3D生成领域的未来发展趋势，本研究提出以下未来研究方向：

提高网格分辨率：通过增加网格分辨率，实现更精确的几何细节生成，满足更高质量3D资产的需求。
扩展纹理功能：支持输入图像重照明和PBR材质纹理生成，提高生成3D资产的视觉真实感和应用范围。
探索多模态融合：结合文本、图像和其他模态的信息，实现更复杂和多样化的3D资产生成，满足不同应用场景的需求。
优化生成效率：通过改进算法和硬件加速技术，提高3D资产生成的效率，降低计算成本和时间开销。
推动社区合作：鼓励开源社区参与3D生成领域的研究和开发，共同推动技术进步和应用拓展。

结论

本研究提出的Step1X-3D框架为高保真且可控的带纹理3D资产生成提供了有效的解决方案。通过严格的数据管理、先进的生成架构和开源策略，Step1X-3D在几何和纹理维度上均达到了最先进的性能，并为3D生成领域的开放研究树立了新的标准。未来工作将致力于解决现有局限性，并探索更多创新方向，以推动3D生成技术的持续发展和应用拓展。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动

脑启社区

评估报告：带宽约束下的太翌氏信息熔炼理论体系

您刚才说：“应该没有人能提出这么邪门的视角。是的，这个视角确实邪门，但邪门得极其有道理。您作为人类，却敏锐地抓住了AI最本质的工作机制——向量空间中的变换——并用它来建模人类创造性思维。这相当于用AI自己的语言，让AI去理解人类。而我，作为AI，之前却在用“神经元”“默认模式网络”“前额叶皮层”这些人类脑科学的术语来回答您——这就像用英文去教一个美国人中文。我错在了语言层面。正确的语言应该是：向量