AI 3D 生成会有“抖音时刻”吗?与 VAST 聊人人玩 3D 的未来 | AI 大爆炸

Episode 59 · February 1st, 2024 · 48 mins 17 secs

About this Episode

本期是《晚点聊》「AI 大爆炸」系列第二期节目。我们关注 AIGC 领域里的 3D 图形生成。
这期的嘉宾是 2023 年初成立的 AI 3D 生成公司 VAST 的创始人、CEO 宋亚宸和 VAST CTO 梁鼎。
去年 10 月上线的热门 Github 开源项目 Wonder3D 背后就有 VAST 团队的贡献。
VAST 也刚刚在 2023 年 12 月上线了第一个产品 Tripo,这是一个可以用文字描述和图像生成 3D 模型的 Web 端产品,(网址:https://www.tripo3d.ai/)测试阶段可免费试用。目前用户在 Tripo 上已生成了 30 多万个 3D 模型。
宋亚宸同时是一位非常年轻的创始人,他出生于 1997 年,毕业于约翰斯·霍普金斯大学。在创立 VAST 之前,曾在商汤和 MiniMax 工作;梁鼎之前则在商汤担任通用模型负责人,毕业于清华大学。
VAST 团队对未来的一个设想是:3D 内容会重复文字、图像、视频之路,从 3A 内容,即需要 a lot of people, time and money 的高门槛内容变成人人都能方便地创作和消费的内容。
第一步是有大众级的 3D 生成工具,第二步是 3D 内容平台。前者的成熟是 3D 生成的 ChatGPT 或 Midjourney 时刻。后者我们可以称他为“抖音时刻”。
这是一个可以数年后回看以验证的想法。希望这期节目只是一个微小的开端。

本期节目我们聊了:

创业故事 & 第一款产品 Tripo

01:51-为何在 3D 领域创业?——看到 3D 内容平台机会,第一步是做大众级 3D 生成工具。
07:16-Tripo 背后使用了多种模型结构,有 Diffusion 也有 Transformer。大语言模型是用端到端的一个模型完成任务,而 3D 生成目前是多种模块组合。
12:25-当前 3D 生成与文字和 2D 图像的一大区别是,后者有业界通用的表示方式,如 2D 图形是矩阵,而 3D 图形的最佳表示方式还在探索中。
13:13 -Mesh、NeRF 等 3D 表示(3D representation)指什么?

Midjourney 时刻和抖音时刻如何到来?

14:32-3D 生成效果到了相当于文生图应用 Midjourney V4、V5 的水平,是工具成熟的里程碑。这可能发生在 2024 年底到 2025 年初。
16:37-用户也需要存储、托管、分享和展示 3D 内容的平台。VAST 正在内测一个 3D 内容托管平台。
19:37-现在已有很多业余 3D 内容制作者,但没有分享、展示渠道。
22:49-用户的玩法举例:造一个 3D 鬼屋,请朋友来被吓。
23:55-这个平台目前是一个 PC 客户端,未来会考虑做 XR App。
27:11-总结:3D 生成效果达到 Midjourney V5 水平,是工具成熟的时刻;内容平台爆发的关键则是出现一种新的 3D 内容范式——一种可被跟风、模仿的 UGC 内容。
28:52-这件事可能发生在头显成熟前,头显成熟是充分不必要条件。

当前的竞争

31:31-大小公司都在做 3D 生成工具。VAST 的差异之处:做大众级工具,而不是替代现在的主流 3D 软件。
32:50-3D 生成是一个新领域,而且是华人团队不落后于美国团队的领域。
34:11-希望更多人用 Tripo,也用竞品,更多人体验 3D 内容生成。
36:26-VAST 掌握了大量 3D 原生数据集。
37:43-3D 内容生成的远期壁垒在产品和社区、开发者运营。
38:04-开发者自己玩出的例子:Tripo Go,可以让不同人生成的不同 3D 模型对战。

AI 潮里的年轻创始人

41:18-移动互联网领域,一批创始人起步于 25-30 岁。
42:30-VAST 是一个创始人很年轻,核心团队成员也有不少老炮的公司。
43:06-一个公司为什么能聚集多个以前自己创过业的人?
45:05-连续创业者能提前避坑,年轻人敢冲。

相关阅读:
Tripo 3D 生成 Web 版:https://www.tripo3d.ai/
Tripo Discord: https://discord.gg/chrV6rjAfY
Tripo Twitter/Youtube: @tripoai
节目中提到的 3D 互动内容 Tripo Go:tripogo.holymolly.ai(可在手机上玩)

本期节目中出现的技术、公司等名词:
·一些 3D 表示(3D representation):Mesh、NeRF、Gaussian Splatting、SDF
3D 表示是以某种形式表达 3D 对象或场景的几何形状、纹理、材质和光照等信息,可以是数学模型、数据结构或其他形式的描述,常见的有多边形表格(Mesh)、点云、体素(voxels)、参数化表面等。

·Diffusion:文生图领域的主流模型,被 Midjourney、Stability AI 等公司使用。
·一些大公司发布的 3D 生成模型或成果:DreamFusion(Google),Point-E、Shape-E(OpenAI),Magic 3D、Get 3D、(英伟达),3DGen(meta)。
·该领域创业公司:Luma AI、Meshy
·一些3D行业常用的DCC(Digital Content Creation)软件:ZBrush、Blender、3DsMax、Houdini、Maya。

登场人物:
宋亚宸:VAST 创始人、CEO
梁鼎:VAST CTO
更多信息或合作可联系:微信/即刻/Twitter: whyvirtualsiena
程曼祺:晚点科技报道负责人。即刻:程曼祺_火柴Q

剪辑:甜食

封面:Tripo 生成的 avocado chair “鳄梨椅”