和楼天城聊 Robotaxi:学习人类优秀司机,让我绝望

Episode 96 · December 26th, 2024 · 1 hr 27 mins

About this Episode

「没进展的 5 年,也是内部技术变革的 5 年。」

两年多前,我们在 Robotaxi(无人出租车)的信心冰点报道过小马智行。那时的标题是:“市场不相信自动驾驶了,但他们还信”。

转眼到 2024 年:百度萝卜快跑 4 月在武汉引起热潮,Waymo 无人车队 8 月在旧金山的日均总单量超过了当地出租车(未计算网约车);年底,又有文远知行、小马智行两家中国头部 Robotaxi 公司先后登录美股。

在特斯拉和 Waymo 的路线对比中,强弱之势也正微妙变化。10 月,马斯克的 Robotaxi 发布会后,Uber 股价大涨 10%;而 1 个月后,当 Waymo 传出进入迈阿密,Uber 股价则跳水 10%。

谁更有希望代表 L4 真的改变人类司机出行网络?华尔街在用钱表态。

这个时刻,我们再次访谈了刚刚完成 IPO 的小马智行 CTO 楼天城。

他完整描述了小马过去 5 年 L4 技术变革:从 Learning by Watching 到 Learning by Practicing。

前者是学习人类驾驶行为的模仿学习,是如今 L2+ 普遍选择的路;后者的关键则是构造一个训练车端模型的虚拟环境,让系统可以自己进化,楼天城称之为“世界模型”。

楼天城分享了与之相关的多个技术洞察:
·世界模型本质不是一个模型,世界模型是车端模型的 factory(工厂),自动驾驶技术的真正差别在于 factory 的精度,而非车载模型的能力。
·Learning by Watching 最多是像人,但像人永远无法做到 L4。
·越是优秀的人类司机,学起来越是反向优化。
·MPI 为 1000 公里的产品不存在,因为它反人性。

过去 5 年,外界看不到 L4 公司的明显进展:MPCI(接管里程)仍在提升,但只要无人化车辆没有大量上路,人们就没有直观感受,技术指标只是冰冷的数字。

但在楼天城的叙述里,外界见不到进展的 5 年,也正是关术变革发生的关键时期。

这些变化,使 Robotaxi 今年得以启动百台至千台级别的规模化运营,也给行业带来了高开低走,又逐渐反弹的波折命运。这不仅考验从业者的理性技术判断,更考验感性的决心,和说服团队一起相信的能力。

“我一直说,大部分人不能坚持不是因为太苦,而是因为受到了诱惑。”楼天城说,过去 8 年,他没有遇到过能和自动驾驶相提并论的诱惑,大模型也不算。

时间线跳转:
·5 年前:瓶颈 →绝望→寻找新路
02:53 2019 年后,L4 的进展难再被感知,规模化无人运营带来了市场水温变化。
11:13 这 5 年:从 Learning by Watching 到 Learning by Practicing
12:30 前者是模仿学习,没法学习驾驶员怎么想
14:27 世界上不存在一个 MPI 为 1000 公里的 L2 产品,因为反人性
16:13 模仿学习的另一个问题是人的双标,AI 司机所以像人依然不满足需求。
19:07 学习优秀司机也不行,甚至是反优化
19:45 这本质是因为模仿学习是开环训练,“我绝望了,才发现闭环是出路”

·搭建“世界模型”
22:03 Learning by Practicing 的闭环训练,是强化学习思路
23:46 学了棋谱再强化(AlphaGo),甚至不如直接从 0 开始强化(AlphaZero)
24:28 感性上的挑战:之前的路线做了 3 年还不错,换路线后前两年追得痛苦
26:19 5 年前开始转向以生成数据为重,这也是世界模型的任务之一
30:36 在虚拟环境里学习,本质是“向未来的自己学习”
32:21 世界模型是车端模型的工厂,自动驾驶进化的关键是工厂的精度,而不是车端模型本身
34:43 Learning by Watching,数据和算力是关键;Learning by Practicing,世界模型的精度是关键

·认为 L2 会覆盖 L4,是还没有越过分界点
35:03 没有谁做了错误选择,L2+和 L4的优化方向不同
36:18 L2 使用 Learning by Watching 没问题,也符合 L2+的规模效应特性
38:51 L2 不能覆盖 L4,L4 也不能取代 L2,真正越过分界点后会发现这是两件事
42:20 小马世界模型的构成:1.数据生成器 2.驾驶评估体系 3.高真实性的仿真 4.数据挖掘引擎
45:39 魔鬼在细节,世界模型的细粒度指标是核心竞争力
53:04 世界模型的终极状态:车不再因错误发生事故
54:48 千台 Robotaxi 开始有毛利,净利和扩张则是策略上的 trade off
56:15 不会因为它是特斯拉,Learning by Watching 就能 work
01:03:11 车辆运营维护与合作伙伴一起做;远程遥控人员的比例未来可到 1 比 30

·大部分是因为结果的正确,倒推方法的正确
01:10:20 大部分人不能坚持,不是因为苦,而是因为受到了其它诱惑
01:11:08 大模型现在很 fancy,一旦走到应用阶段,会经历自动驾驶经历的所有事
01:11:35 MiniMax 的产品是 L4,CoPilot 是 L2
01:14:09 度过行业起伏:外界看不到进展时,内部也要有合理且可感的里程碑
01:17:30 越来越相信,世界是模拟的
01:19:40 大部分人是因为结果正确,倒推成功者方法正确,但正因如此,不该盲目套用别人的方法
01:24:00 过早追求商业化,和一定要追求最有价值的商业化,都是极端。“创业前我没想过二者的平衡,创业中我肯定偏执过。”
01:25:57 下一步的关键是合理成本下,扩大车队规模

相关链接:
《市场不相信自动驾驶了,但他们还信》

剪辑:甜食

登场人物:
楼天城,小马智行联合创始人兼 CTO。
程曼祺,《晚点 LatePost》科技报道负责人。