“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能

Episode 71 · June 12th, 2024 · 1 hr 53 mins

About this Episode

本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。(原文见 shownotes 末尾链接)。

马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学。

在如今的 AI 领域,马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型,就可以实现通用人工智能,这就是大模型的 Scaling Laws,它被一些人视为“信仰”。

马毅则不相信这条路。他认为现在的深度学习网络本质上,都是在做压缩(compression):就是从图像、声音和语言等高维信号里,找到能表示数据间相关性和规律的低维结构。

GPT 表现出来的数学推理等能力,在马毅看来本质还是依靠记忆和统计,就像一个接受填鸭式教育的、高分低能的学生,它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是:能纠正自己现存知识的不足,而且能增加新的知识。

由此,马毅也完全不买账 AI 威胁论,他认为,说现在的 AI 危险的人,“要么是无知,要么是别有目的”。

为解释深度学习网络到底在做什么,马毅团队最近几年的重点工作是,白盒大模型,也就是用数学来解释深度学习网络的压缩过程,以找到更高效的压缩方式。

他也希望以此来对抗黑盒带来的误解,因为“历史上,任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管,导致垄断,遏制创新。

真理不一定掌握在少数人手中,但少数派和观点竞争的存在增加了发现真知的概率。

*访谈过程中涉及了一些论文、著作和术语,我们也标注在了 shownotes 里的附录部分。

时间线指引:

-现有主流路线的局限
02:49 工业界更关注现有方法提效,而白盒模型刚提出时的工程验证有限。
05:08 现在的大模型是通过经验找到了一些有效的方法,但它引起的量变不是真正的智能。
08:29 现有方法其实只模拟了记忆的局部功能,资源消耗大GPT 类模型仍“高分低能”。
13:26 当整个community 都认可一两件事,可能忽略掉其他可能更重要的事,曾经的深度学习就是一个例子。
15:45 如果你作为年轻人,相信只靠 Scaling Laws 就可以实现 AGI,你可以转行了。(这部分提及的文章是附录里的 wide eyes shut)
18:44 因为研究不要怕特立独行:当年在微软亚研院招何恺明等员工,都会让大家想:你做的哪些事别人做不了?

-智能的原则:简约与自洽;达到智能的可能路径:白盒、闭环、自主
21:19 2017 年回到伯克利后,开始梳理已有成果:现有深度网络都是在做“压缩”(compression)。
23:18 白盒大模型是给这个压缩过程找到数学解释。
24:52 科学史上的好想法总会被翻新。
26:11 知道了压缩到数学原理,能帮助找到更高效的压缩方式。
26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约,后半句对应自洽。
29:39 为什么智能会出现?——世界上有值得学、能学到的规律。
32:47 知识不等于智能,GPT-4 有更多知识,婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。
37:13 达到智能,除了从黑盒到白盒,还有从开环到闭环,从人工到自主。
40:48 自主学习的含义之一是,人的学习是在大脑内部建模完成的,不需要真去对比外部物理信号,生物没有这个选项。
46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。

-验证推演 & 白盒对黑盒的祛魅
48:41 ReduNet 是一个框架,但工程实现还不够;CRATE 做了工程优化。
55:32 历史上任何有用的黑盒都可能变成巫术。
57:03 有人说 AI 是原子弹,我们看很可笑。
57:33 政府应该监管技术的应用,而不是技术本身。
59:07 从去年开始,更迫切感到要让更多人知道现在的 AI 在作什么,AI 没这么可怕。
60:16 白盒更实际的作用:减少试错成本、GPU 成本。

-对智能历史的梳理
01:05:04 为何机器智能的结构会类似生物智能?——尚未看到更高效地方法。
01:07:13 从维纳的《控制论》开始,第一批研究智能的选择并没有区分机器与生物。
01:09:58 闭环系统的好处,解决“灾难性以往”问题。
01:13:13 对(人工)智能的研究并非始于1956年。
01:15:26 深度网络的两次危机都与缺乏数学解释有关,但现在可能不会再发生。
01:17:23 从生物学和神经科学中学习,猴子大脑机制与智能研究发现的相似性。
01:20:36 真正的智能应具备自主学习和自我纠错的能力。

-创业 & 教育
01:24:14 学校做验证,公司做放大,希望证明白盒路线的可行。
01:29:09 要么有量变,用白盒显著降低训练资源or提升训练效率;要么有质变,探索闭环、自主的可能性。
01:38:53 业界其他的非主流路线探索:LeCun 的 JEPA,李飞飞新创业等。
01:41:21 港大正在推动 AI literacy 课程,所有专业都学,AI 应成为通识教育的一部分。
01:48:39 达特茅斯会议为什么在智能前面加上 artificial?——也是追求和前辈不一样,想探索人类高级智能。
01:52:20 科学竞争最关键的就是人,重要的是把资源分配给正确的人。

相关链接:

对话香港大学马毅:“如果相信只靠 Scaling Laws 就能实现 AGI,你该改行了”
https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ

【视频】马毅教授谈神经网络,《简约和自洽》:神经网络从黑盒到白盒,学习模型从开环到闭环
(听完播客还有兴趣了解跟多的话,非常推荐这个视频,有图解、有现场,深入简出)
https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464

忆生科技Engram正在招募优秀人才,简历请投递:recruit@transcengram.com

访谈中提到的论文:

Scaling White-Box Transformers for Vision, 2024/5
https://arxiv.org/abs/2405.20299

Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4
https://arxiv.org/abs/2401.06209

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11
https://arxiv.org/abs/2311.13110

Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10
https://arxiv.org/abs/2210.16782

本期人物:
马毅,香港大学计算机系主任
程曼祺,晚点 LatePost 科技报道编辑(微信:momochoqo;即刻:程曼祺_火柴Q)

剪辑:甜食

附录:访谈中提到的技术术语、概念和人物
维纳:在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是:under control and communication in animals and machine(“或关于在动物和机器中控制和通信的科学”)
香农:在 1940 年代前后提出信息论
Yann LeCun,图灵奖获得者、Meta 首席科学家
李飞飞,知名 AI 研究者,斯坦福大学教授
何恺明,知名 AI 研究者,ResNet 作者
1956 年达特茅斯会议:提出了人工智能(Artificial Intelligence)这一概念的会议
ReduNet,马毅团队 2022 年发布的白盒大模型理论框架
CRATE,马毅团队 2023 年提出的更新的白盒大模型
JEPA,Yann LeCun 团队提出的一种世界模型架构