AI生成3D:酷炫的算法,为何商业落地慢?

过去的一年,我在硅谷带团队做了一些科研工作和产品原型,还与很多游戏工作室和艺术家交流。来说说 AI 3D 技术和商业上的挑战,为什么到现在还没跑出龙头项目。

这可能是目前3D生成模型领域最犀利的内容之一,英文版视频在油管频道(Tech Cindy)上很多评论。想直接看视频的朋友们可以点击“查看原文”传送到B站~

视频版同步更新ing!B站/油管搜索【甜菜欣欣】即可

3D建模

我们从头讲。首先,什么是 3D 资产,它是由什么组成的?

  • 网格:定义 3D 对象形状的顶点、边和面的集合。
  • 纹理:2D 图像,用于定义网格表面的颜色、图案或表面细节。
  • UV 映射:2D 纹理到 3D 网格上的映射,使纹理能够与 3D 网格正确对齐。

除此之外,3D 建模还可包括材质、法线、骨骼绑定和动画。

即使经验丰富的艺术家,也可能需要好几天才能制作出常见的 3D 资产,比如房屋或树木。这也是为什么许多公司寻求基于 AI 的解决方案。

3D生成算法

近年来,研究人员一直在寻找辅助 3D 创作的方法。受 AI 生成 2D 工作的启发,早期 3D 生成尝试采用了 GAN 算法。3DGAN 提出从概率空间生成 3D 模型。

同样,当对比语言-图像预训练(CLIP)在 2021 年被提出用于联合嵌入时,基于 CLIP 的 2D 生成工作自然激发了 3D 领域的探索。

之后,Dreamfields 提出了使用神经辐射场 (NeRF) ,这是一种从 2D 多视图创建 3D 模型的逆渲染方法。

2022 年,DreamFusion 首次提出使用预训练的 2D 文生图大模型,通过可微分渲染进行文生 3D。他们的核心方法是分数蒸馏采样(SDS),从预先训练的扩散模型的参数空间中均匀采样,以获得与给定文本提示匹配的梯度。

作为 AI 3D 领域最有影响力的论文之一,DreamFusion 激发了许多基于 SDS 的改进。

  • Magic3D 通过两步走的方法,进一步提高了 3D 建模的质量和速度。
  • Fantasia3d 在 SDS 损失的监督下,分别生成几何结构和外观。

我的研究团队提出了 EucliDreamer:对于具有 SDS 损失的训练循环,在颜色信息之上加入了景深信息。通过实验和用户研究,我们证明在 SDS 训练中添加深度调节可以大大提高 3D 纹理的质量和速度。

市场需求

让我们看看 AI 3D 的现状,一些让圈外人惊讶的结论。

从市场角度来看,AI 3D 最大的市场是游戏。2022年,全球游戏行业收入约为 1850 亿美元。由于3D建模在游戏开发中占有相当大的比例,预计全球3D游戏资产制作市场规模超过100亿美元。相比之下,其他行业要么规模太小,例如 3D 电影只有 20 亿美金的潜在市场,要么严重依赖 2D 格式,例如建筑可视化。

从应用侧来看, 学术界和工业界之间存在技术与理解的鸿沟。

大部分 3D 生成的科研集中在生成整个的模型,包括网格和纹理。AI 仍然难以生成简洁清晰的拓扑结构,并且缺乏对 3D 网格的整体理解,这使得生成的 3D 模型难以由人类艺术家进一步编辑,变得毫无用处。AI 生成纹理,而不生成网格和 UV 贴图,似乎是更容易商业落地的目标。

此外,游戏公司并不纯粹根据文本提示生成 3D 模型,而是更倾向于从 2D 图像中转化。这是因为他们可以利用原画,也就是角色、场景或对象的 2D 设定图作为 AI 模型的直接输入。

除此之外,艺术风格也很重要。游戏工作室希望一款产品中的所有 3D 模型都具有相同的艺术风格。尽管 Unity Store 和 Sketchfab 等平台上有丰富的选择,但游戏公司仍花费巨额资金来定制 3D 模型 。从技术角度来看,可使用Lora、微调或增改提示词来获得统一的画风。

技术挑战

今天, AI 纹理仍然存在各种问题——

  • 过重的光影:纹理通常在渲染之前不包含阴影,比如业内常见的迪士尼 PBR 标准。因此,具有重阴影的纹理变得不可用。
  • 语义错误:如果 3D 网格代表一辆汽车,则相应的纹理应为轮胎提供深色橡胶颜色,而不是用彩色图案覆盖车窗。
  • 视图不一致:由于流行的纹理方法从单视图图像导出多视图,因此生成的 3D 对象的每一个面可能具有不同的画风或色调。
  • 色调不和谐:有时,3D 纹理的问题不属于任何先前类别,但主观上外观很差。,可能是因为纹理违反色彩搭配原则。

技术上的挑战,首先是数据,3D 建模数据本质上是稀缺的。Objaverse 和 ShapeNet 等开源数据集包含大量质量较差的数据。欣欣认为扫描得到的模型不利于训练,因为它们的结构和颜色不干净。另一边,手工制作的高质量风格化 3D 模型,则由一些私营公司拥有,是他们的核心艺术资产。即使公司同意将其用作训练数据,数万的数量仍然太少。

数据稀缺给算法带来了有效使用现有数据集的压力。目前,初创公司根据其技术路径,主要分为两个阵营。一派主张利用 2D 大模型(如 Stable Diffusion)作为中间步骤来生成 3D 模型,另一派则希望基于原生的 3D 数据进行训练和推理。后者理论上效果更好,但我估计需要超过十万个 高质量 3D 模型。

还有推理时间的问题。现在的算法,一次生成需要 10-20 分钟,具体看网格和 GPU。对于商业化产品,用户的等待时间需要减少到一分钟以下。我的团队认为,两年内推理时间将缩短到非常短,如果用上更好的算法,单次生成只需要 10 秒。

市场情况

活跃的初创公司

  • Vast:相信 3D 基础模型,并结合了许多独特的 3D 数据进行训练。尽管纹理生成还无法用于我的游戏,Tripo 模型是我所尝试的效果最好的模型之一。
  • Meshy:旨在赋能游戏工作室和艺术家,拥有一个活跃的人才社区。该团队执行得非常好,并且有很多见解。
  • Luma:推出了手机应用,让用户扫描物体并生成新的画风,融资 4300 万美元,坐拥约 3000 个 Nvidia A100 GPU 的计算集群。用户可以用手机把身边精彩的瞬间保存成 3D 格式,挺酷的。这个资源丰富的团队,暂无计划为游戏行业量身定制产品。
  • CSM:据说擅长网格生成,有可能用于 3D 打印和游戏。他们成立于 2020 年,已融资 1000 万美元。

科技巨头的项目

  • OpenAI ShapE:我认为主要是扫描数据训练的,只有少数人使用。
  • 英伟达 Picasso:处于实验室的早期阶段。

已转型的公司

  • WithPoly:最初构建了用于平铺纹路的 AI,这与制作纹理略有不同。进过硅谷著名的 Y Combinator 孵化器,去年转行做云存储了。
  • Scenario:开始做的是 AI 3D,后转为生成 2D 资产和游戏的其他组件。
  • Genmo AI:也始于 AI 3D,由领域内顶尖科研人员创立,后来重点做文生视频。

初创公司的困境

创投圈多数认为,AI 技术尚未成熟到能生成即用的 3D 模型。EchoVerse 的游戏人物通过 Vast Tripo 生成的 3D 模型,还无法直接应用。

那么退一步,是否可以造一个辅助创作的工具呢?就是说,让 AI 完成 80% 的打底,再由人工来完成剩下的 20% 呢?不幸的是,答案是否定的。 AI 生成的 3D 模型过于粗糙,修复它们比手动从头制作新模型需要更多时间。

根据我自己使用 Eucli AI 的经验,可以将 AI 用于 3D 模型,这在游戏的头脑风暴阶段或营销阶段很有用。如果游戏工作室想要快速出一些创意原型,或者想要不同画风的模型在广告中进行快速 A/B 测试,那么 AI 可以帮助他们,又快又便宜。然而,公司对这些环节的付费意愿不会太强。

有没有一些很蠢但有用的方法呢?Sloyd.ai 是检索相关 3D 模型并通过参数改变其外观的一个例子。Kaedim3D 则使用纯人工来制作 3D 资产,至少在某个时间点,并声称它们是由人工智能生成的。现在它号称“结合“了人工和智能,可以在 20 分钟内交付便宜的 3D 模型,刚刚完成了一轮 1500 万美金的融资。

除了 B 端,AI 3D 在消费市场潜力如何?通过 VR 设备创建 3D 场景和对象并与之交互会很酷。人们以为 2024 年是 VR 和 AR 的一年,苹果于二月初推出 Vision Pro。然而据彭博社报道,很多人买了然后退货,试用的转化率偏低。

在我看来,AI 3D 最终的杀手尚未到来,那就是文生视频技术。几周前,OpenAI 发布了视频生成模型 Sora,它实现了惊人的 3D 一致性。回想一下从多视图生成 3D 模型的过程,我们就知道视频大模型最终能生成 3D 资产,这一天只会早到不会晚到。

欣感想

尽管 AI 生成越来越强,但不会取代人类的创造力。源自我们的经验和情感,人类艺术表达的深度和细微差别是独一无二的。

对于探索这一创新领域的初创企业来说,重点应该放在实现产品与市场的契合上,创建与市场需求产生共鸣的解决方案,而不是仅仅关注技术新颖性。

发表回复

您的电子邮箱地址不会被公开。