具身模型哪家强?与范浩强、高阳聊具身模型的测评、RoboChallenge,26 年具身展望

Episode 149 · January 26th, 2026 · 1 hr 21 mins

About this Episode

「用大规模测评驱散 PR 式 demo 的迷雾。」

虚拟空间的大模型有大量 benchmark,测试非常直观;而在如火如荼的具身领域,怎么衡量模型能力,本身还是需要探索的课题。

这期,我们邀请了两位具身智能从业者,原力灵机联创范浩强和千寻智能联创与首席科学家高阳,一起聊具身模型的测评。

范浩强从高三就开始在旷视工作,有丰富的计算机视觉开发和落地经验;高阳回国前在伯克利 BAIR 攻读博士,和 PI 的联创 Sergey Levine 有诸多学术合作。

去年 10 月,原力灵机和 Hugging Face 联合发起了全球首个具身智能的大规模真机评测平台 RoboChallenge。在前不久释放的最新测评结果中,千寻的 Spirit v1.5 模型登顶榜单,表现超过 π*0.5。


RoboChallenge 测评平台网站:https://robochallenge.ai/home


图注:RoboChallenge 测评现场

在 RoboChallenge 的测评中,机器人不再只活在精挑细选的 Demo 视频里,而是要在多样化的“Table 30”任务中接受真实世界的“毒打”——任务包括碎纸、插花,扫二维码。

这期我们聊了具身模型测评的难点,RoboChallenge、RoboArena 等目前的大规模测评尝试是怎样的思路?行业里心照不宣的 demo 工程,以及 2026 年,我们可能从哪些路径逼近具身智能的 GPT-3 时刻。

范浩强和高阳说,组织和参与测评的过程,组织和参与测评的过程,本身增强了他们对具身的信心,,从 π*0 在 Table 30 任务上只有 20% 的成功率到 π*0.5 的翻倍和一些国产模型的超越,具身仍很早期,但进步速度也很惊人。

本期嘉宾:
范浩强 原力灵机联合创始人
高阳 千寻智能联合创始人、清华大学叉院助理教授

本期主播:
程曼祺 晚点 LatePost 科技报道负责人

时间线跳转:
-发起 RoboChallenge,行业呼唤大规模测评
03:24 范浩强和高阳的从业经验
06:53 RoboChallenge 的发起,见证成功率从 π0 的 20% 到 π0.5 的超 40%
12:40 以往方法的问题:环境不一致、测评不持续、仿真有局限
21:47 对比 RoboArena 和 RoboChallenge:前者是分布式 Zero-shot 测评;后者是集中 few-shot 测评
28:33 上线 2 个多月的观察:超预期的 1 万条测试提交,国产模型超越
33:04 Table 30 任务集的设计,插花、扫二维码等任务的“刁钻”考点
40:24 提交者自己做 fine-tune(微调),开源权重证明诚信;接下来会更新灵巧手的测评

-2026 年具身展望
45:07 学习原理已经收敛,Scaling Data 是 2026 年的行业主题
48:53 4 种数据类型,各团队的不同数据 bet
57:20 落地应用,具身的“Coding”任务是什么?“破圈”时刻何时出现?
01:07:00 大众与从业者之间的认知落差,行业心照不宣的“demo”工程
01:12:50 具身测评可以被 Hack 吗?如何反制 hack?
01:14:52 26 年想验证的问题:具身中国追平美国的 DeepSeek 时刻是否到?基模能否上一个台阶?

01:17:47 连点成线:总结观察具身进展的 3 个维度 & 具身创业团队的不同来源

附录:本期中出现的一些人物、技术名词、项目、公司
-Sergey Levine:Sergey Levine,加州大学伯克利分校教授,机器人强化学习与通用学习系统的重要推动者。曾参与 Google / Google Brain 的机器人与强化学习研究,并共同创立具身智能公司 Physical Intelligence(PI)。
-π 系列模型:PI 提出的通用机器人模型系列,最新版本 π*0.6。
-CIFAR:一个经典计算机视觉数据集,相比之后出现的 ImageNet,它规模更小、分辨率更低,常用于快速实验和教学。
-Sunday Robotics:由 Tony Zhao 与 Cheng Chi 在 2024 年联合创立的家庭场景通用机器人公司。
-Generalist AI:2024 年成立的美国通用机器人 / 具身智能的创业公司。

本期剪辑:Nick

小红书@曼祺_火柴Q即刻@曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: