<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" encoding="UTF-8" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:sy="http://purl.org/rss/1.0/modules/syndication/" xmlns:admin="http://webns.net/mvcb/" xmlns:atom="http://www.w3.org/2005/Atom/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:googleplay="http://www.google.com/schemas/play-podcasts/1.0" xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd" xmlns:fireside="http://fireside.fm/modules/rss/fireside">
  <channel>
    <fireside:hostname>web02.fireside.fm</fireside:hostname>
    <fireside:genDate>Thu, 14 May 2026 12:35:16 -0500</fireside:genDate>
    <generator>Fireside (https://fireside.fm)</generator>
    <title>晚点聊 LateTalk - Episodes Tagged with “大模型”</title>
    <link>https://podcast.latepost.com/tags/%E5%A4%A7%E6%A8%A1%E5%9E%8B</link>
    <pubDate>Wed, 12 Jun 2024 07:00:00 +0800</pubDate>
    <description>《晚点聊 LateTalk》由《晚点 LatePost》出品。
最一手的科技访谈，最真实的从业者思考。
</description>
    <language>zh-cn</language>
    <itunes:type>episodic</itunes:type>
    <itunes:subtitle>以多视角观察当代商业社会，和身处其中的个人</itunes:subtitle>
    <itunes:author>晚点 LatePost</itunes:author>
    <itunes:summary>《晚点聊 LateTalk》由《晚点 LatePost》出品。
最一手的科技访谈，最真实的从业者思考。
</itunes:summary>
    <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/1/19a49f52-28ee-4e25-b8e9-4f0ee70917e0/cover.jpg?v=7"/>
    <itunes:explicit>no</itunes:explicit>
    <itunes:keywords>晚点, latepost, 晚点聊, LateTalk</itunes:keywords>
    <itunes:owner>
      <itunes:name>晚点 LatePost</itunes:name>
      <itunes:email>podcast@latepost.com</itunes:email>
    </itunes:owner>
<itunes:category text="Business"/>
<itunes:category text="News"/>
<itunes:category text="Technology"/>
<item>
  <title>71: “如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能</title>
  <link>https://podcast.latepost.com/71</link>
  <guid isPermaLink="false">0e8f77ed-6bc1-4e16-b794-c2229419960c</guid>
  <pubDate>Wed, 12 Jun 2024 07:00:00 +0800</pubDate>
  <author>晚点 LatePost</author>
  <enclosure url="https://aphid.fireside.fm/d/1437767933/19a49f52-28ee-4e25-b8e9-4f0ee70917e0/0e8f77ed-6bc1-4e16-b794-c2229419960c.mp3" length="81368502" type="audio/mpeg"/>
  <itunes:episode>71</itunes:episode>
  <itunes:title>“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”，与香港大学马毅聊智能</itunes:title>
  <itunes:episodeType>full</itunes:episodeType>
  <itunes:author>晚点 LatePost</itunes:author>
  <itunes:subtitle>“任何有用的黑盒都可能变成迷信和巫术。”</itunes:subtitle>
  <itunes:duration>1:53:00</itunes:duration>
  <itunes:explicit>no</itunes:explicit>
  <itunes:image href="https://media24.fireside.fm/file/fireside-images-2024/podcasts/images/1/19a49f52-28ee-4e25-b8e9-4f0ee70917e0/episodes/0/0e8f77ed-6bc1-4e16-b794-c2229419960c/cover.jpg?v=1"/>
  <description>&lt;p&gt;本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。（原文见 shownotes 末尾链接）。&lt;/p&gt;

&lt;p&gt;马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来，马毅先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学。&lt;/p&gt;

&lt;p&gt;在如今的 AI 领域，马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型，就可以实现通用人工智能，这就是大模型的 Scaling Laws，它被一些人视为“信仰”。&lt;/p&gt;

&lt;p&gt;马毅则不相信这条路。他认为现在的深度学习网络本质上，都是在做压缩（compression)：就是从图像、声音和语言等高维信号里，找到能表示数据间相关性和规律的低维结构。&lt;/p&gt;

&lt;p&gt;GPT 表现出来的数学推理等能力，在马毅看来本质还是依靠记忆和统计，就像一个接受填鸭式教育的、高分低能的学生，它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是：能纠正自己现存知识的不足，而且能增加新的知识。&lt;/p&gt;

&lt;p&gt;由此，马毅也完全不买账 AI 威胁论，他认为，说现在的 AI 危险的人，“要么是无知，要么是别有目的”。&lt;/p&gt;

&lt;p&gt;为解释深度学习网络到底在做什么，马毅团队最近几年的重点工作是，白盒大模型，也就是用数学来解释深度学习网络的压缩过程，以找到更高效的压缩方式。&lt;/p&gt;

&lt;p&gt;他也希望以此来对抗黑盒带来的误解，因为“历史上，任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管，导致垄断，遏制创新。&lt;/p&gt;

&lt;p&gt;真理不一定掌握在少数人手中，但少数派和观点竞争的存在增加了发现真知的概率。&lt;/p&gt;

&lt;p&gt;*访谈过程中涉及了一些论文、著作和术语，我们也标注在了 shownotes 里的附录部分。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;时间线指引：&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;-现有主流路线的局限&lt;/strong&gt;&lt;br&gt;
02:49 工业界更关注现有方法提效，而白盒模型刚提出时的工程验证有限。&lt;br&gt;
05:08 现在的大模型是通过经验找到了一些有效的方法，但它引起的量变不是真正的智能。&lt;br&gt;
08:29 现有方法其实只模拟了记忆的局部功能，资源消耗大GPT 类模型仍“高分低能”。&lt;br&gt;
13:26 当整个community 都认可一两件事，可能忽略掉其他可能更重要的事，曾经的深度学习就是一个例子。&lt;br&gt;
15:45 如果你作为年轻人，相信只靠 Scaling Laws 就可以实现 AGI，你可以转行了。(这部分提及的文章是附录里的 wide eyes shut）&lt;br&gt;
18:44 因为研究不要怕特立独行：当年在微软亚研院招何恺明等员工，都会让大家想：你做的哪些事别人做不了？&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;-智能的原则：简约与自洽；达到智能的可能路径：白盒、闭环、自主&lt;/strong&gt;&lt;br&gt;
21:19 2017 年回到伯克利后，开始梳理已有成果：现有深度网络都是在做“压缩”（compression)。&lt;br&gt;
23:18 白盒大模型是给这个压缩过程找到数学解释。&lt;br&gt;
24:52 科学史上的好想法总会被翻新。&lt;br&gt;
26:11 知道了压缩到数学原理，能帮助找到更高效的压缩方式。&lt;br&gt;
26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约，后半句对应自洽。&lt;br&gt;
29:39 为什么智能会出现？——世界上有值得学、能学到的规律。&lt;br&gt;
32:47 知识不等于智能，GPT-4 有更多知识，婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。&lt;br&gt;
37:13 达到智能，除了从黑盒到白盒，还有从开环到闭环，从人工到自主。&lt;br&gt;
40:48 自主学习的含义之一是，人的学习是在大脑内部建模完成的，不需要真去对比外部物理信号，生物没有这个选项。&lt;br&gt;
46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;-验证推演 &amp;amp; 白盒对黑盒的祛魅&lt;/strong&gt;&lt;br&gt;
48:41 ReduNet 是一个框架，但工程实现还不够；CRATE 做了工程优化。&lt;br&gt;
55:32 历史上任何有用的黑盒都可能变成巫术。&lt;br&gt;
57:03 有人说 AI 是原子弹，我们看很可笑。&lt;br&gt;
57:33 政府应该监管技术的应用，而不是技术本身。&lt;br&gt;
59:07 从去年开始，更迫切感到要让更多人知道现在的 AI 在作什么，AI 没这么可怕。&lt;br&gt;
60:16 白盒更实际的作用：减少试错成本、GPU 成本。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;-对智能历史的梳理&lt;/strong&gt;&lt;br&gt;
01:05:04 为何机器智能的结构会类似生物智能？——尚未看到更高效地方法。&lt;br&gt;
01:07:13 从维纳的《控制论》开始，第一批研究智能的选择并没有区分机器与生物。&lt;br&gt;
01:09:58 闭环系统的好处，解决“灾难性以往”问题。&lt;br&gt;
01:13:13 对（人工）智能的研究并非始于1956年。&lt;br&gt;
01:15:26 深度网络的两次危机都与缺乏数学解释有关，但现在可能不会再发生。&lt;br&gt;
01:17:23 从生物学和神经科学中学习，猴子大脑机制与智能研究发现的相似性。&lt;br&gt;
01:20:36 真正的智能应具备自主学习和自我纠错的能力。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;-创业 &amp;amp; 教育&lt;/strong&gt;&lt;br&gt;
01:24:14 学校做验证，公司做放大，希望证明白盒路线的可行。&lt;br&gt;
01:29:09 要么有量变，用白盒显著降低训练资源or提升训练效率；要么有质变，探索闭环、自主的可能性。&lt;br&gt;
01:38:53 业界其他的非主流路线探索：LeCun 的 JEPA，李飞飞新创业等。&lt;br&gt;
01:41:21 港大正在推动 AI literacy 课程，所有专业都学，AI 应成为通识教育的一部分。&lt;br&gt;
01:48:39 达特茅斯会议为什么在智能前面加上 artificial？——也是追求和前辈不一样，想探索人类高级智能。&lt;br&gt;
01:52:20 科学竞争最关键的就是人，重要的是把资源分配给正确的人。&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;相关链接：&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;对话香港大学马毅：“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”&lt;br&gt;
&lt;a href="https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ" target="_blank" rel="nofollow noopener"&gt;https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;【视频】马毅教授谈神经网络，《简约和自洽》：神经网络从黑盒到白盒，学习模型从开环到闭环&lt;br&gt;
（听完播客还有兴趣了解跟多的话，非常推荐这个视频，有图解、有现场，深入简出）&lt;br&gt;
&lt;a href="https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464" target="_blank" rel="nofollow noopener"&gt;https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;忆生科技Engram正在招募优秀人才，简历请投递：&lt;a href="mailto:recruit@transcengram.com" target="_blank" rel="nofollow noopener"&gt;recruit@transcengram.com&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;访谈中提到的论文：&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;Scaling White-Box Transformers for Vision, 2024/5&lt;br&gt;
&lt;a href="https://arxiv.org/abs/2405.20299" target="_blank" rel="nofollow noopener"&gt;https://arxiv.org/abs/2405.20299&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4&lt;br&gt;
&lt;a href="https://arxiv.org/abs/2401.06209" target="_blank" rel="nofollow noopener"&gt;https://arxiv.org/abs/2401.06209&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11&lt;br&gt;
&lt;a href="https://arxiv.org/abs/2311.13110" target="_blank" rel="nofollow noopener"&gt;https://arxiv.org/abs/2311.13110&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10&lt;br&gt;
&lt;a href="https://arxiv.org/abs/2210.16782" target="_blank" rel="nofollow noopener"&gt;https://arxiv.org/abs/2210.16782&lt;/a&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;本期人物：&lt;/strong&gt;&lt;br&gt;
马毅，香港大学计算机系主任&lt;br&gt;
程曼祺，晚点 LatePost 科技报道编辑（微信：momochoqo；即刻：程曼祺_火柴Q）&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;剪辑：甜食&lt;/strong&gt;&lt;/p&gt;

&lt;p&gt;&lt;strong&gt;附录：访谈中提到的技术术语、概念和人物&lt;/strong&gt;&lt;br&gt;
维纳：在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是：under control and communication in animals and machine（“或关于在动物和机器中控制和通信的科学”）&lt;br&gt;
香农：在 1940 年代前后提出信息论&lt;br&gt;
Yann LeCun，图灵奖获得者、Meta 首席科学家&lt;br&gt;
李飞飞，知名 AI 研究者，斯坦福大学教授&lt;br&gt;
何恺明，知名 AI 研究者，ResNet 作者&lt;br&gt;
1956 年达特茅斯会议：提出了人工智能（Artificial Intelligence）这一概念的会议&lt;br&gt;
ReduNet，马毅团队 2022 年发布的白盒大模型理论框架&lt;br&gt;
CRATE，马毅团队 2023 年提出的更新的白盒大模型&lt;br&gt;
JEPA，Yann LeCun 团队提出的一种世界模型架构&lt;/p&gt;
</description>
  <itunes:keywords>AI,大模型,白盒大模型,Transformer</itunes:keywords>
  <content:encoded>
    <![CDATA[<p>本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。（原文见 shownotes 末尾链接）。</p>

<p>马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来，马毅先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学。</p>

<p>在如今的 AI 领域，马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型，就可以实现通用人工智能，这就是大模型的 Scaling Laws，它被一些人视为“信仰”。</p>

<p>马毅则不相信这条路。他认为现在的深度学习网络本质上，都是在做压缩（compression)：就是从图像、声音和语言等高维信号里，找到能表示数据间相关性和规律的低维结构。</p>

<p>GPT 表现出来的数学推理等能力，在马毅看来本质还是依靠记忆和统计，就像一个接受填鸭式教育的、高分低能的学生，它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是：能纠正自己现存知识的不足，而且能增加新的知识。</p>

<p>由此，马毅也完全不买账 AI 威胁论，他认为，说现在的 AI 危险的人，“要么是无知，要么是别有目的”。</p>

<p>为解释深度学习网络到底在做什么，马毅团队最近几年的重点工作是，白盒大模型，也就是用数学来解释深度学习网络的压缩过程，以找到更高效的压缩方式。</p>

<p>他也希望以此来对抗黑盒带来的误解，因为“历史上，任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管，导致垄断，遏制创新。</p>

<p>真理不一定掌握在少数人手中，但少数派和观点竞争的存在增加了发现真知的概率。</p>

<p>*访谈过程中涉及了一些论文、著作和术语，我们也标注在了 shownotes 里的附录部分。</p>

<p><strong>时间线指引：</strong></p>

<p><strong>-现有主流路线的局限</strong><br>
02:49 工业界更关注现有方法提效，而白盒模型刚提出时的工程验证有限。<br>
05:08 现在的大模型是通过经验找到了一些有效的方法，但它引起的量变不是真正的智能。<br>
08:29 现有方法其实只模拟了记忆的局部功能，资源消耗大GPT 类模型仍“高分低能”。<br>
13:26 当整个community 都认可一两件事，可能忽略掉其他可能更重要的事，曾经的深度学习就是一个例子。<br>
15:45 如果你作为年轻人，相信只靠 Scaling Laws 就可以实现 AGI，你可以转行了。(这部分提及的文章是附录里的 wide eyes shut）<br>
18:44 因为研究不要怕特立独行：当年在微软亚研院招何恺明等员工，都会让大家想：你做的哪些事别人做不了？</p>

<p><strong>-智能的原则：简约与自洽；达到智能的可能路径：白盒、闭环、自主</strong><br>
21:19 2017 年回到伯克利后，开始梳理已有成果：现有深度网络都是在做“压缩”（compression)。<br>
23:18 白盒大模型是给这个压缩过程找到数学解释。<br>
24:52 科学史上的好想法总会被翻新。<br>
26:11 知道了压缩到数学原理，能帮助找到更高效的压缩方式。<br>
26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约，后半句对应自洽。<br>
29:39 为什么智能会出现？——世界上有值得学、能学到的规律。<br>
32:47 知识不等于智能，GPT-4 有更多知识，婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。<br>
37:13 达到智能，除了从黑盒到白盒，还有从开环到闭环，从人工到自主。<br>
40:48 自主学习的含义之一是，人的学习是在大脑内部建模完成的，不需要真去对比外部物理信号，生物没有这个选项。<br>
46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。</p>

<p><strong>-验证推演 &amp; 白盒对黑盒的祛魅</strong><br>
48:41 ReduNet 是一个框架，但工程实现还不够；CRATE 做了工程优化。<br>
55:32 历史上任何有用的黑盒都可能变成巫术。<br>
57:03 有人说 AI 是原子弹，我们看很可笑。<br>
57:33 政府应该监管技术的应用，而不是技术本身。<br>
59:07 从去年开始，更迫切感到要让更多人知道现在的 AI 在作什么，AI 没这么可怕。<br>
60:16 白盒更实际的作用：减少试错成本、GPU 成本。</p>

<p><strong>-对智能历史的梳理</strong><br>
01:05:04 为何机器智能的结构会类似生物智能？——尚未看到更高效地方法。<br>
01:07:13 从维纳的《控制论》开始，第一批研究智能的选择并没有区分机器与生物。<br>
01:09:58 闭环系统的好处，解决“灾难性以往”问题。<br>
01:13:13 对（人工）智能的研究并非始于1956年。<br>
01:15:26 深度网络的两次危机都与缺乏数学解释有关，但现在可能不会再发生。<br>
01:17:23 从生物学和神经科学中学习，猴子大脑机制与智能研究发现的相似性。<br>
01:20:36 真正的智能应具备自主学习和自我纠错的能力。</p>

<p><strong>-创业 &amp; 教育</strong><br>
01:24:14 学校做验证，公司做放大，希望证明白盒路线的可行。<br>
01:29:09 要么有量变，用白盒显著降低训练资源or提升训练效率；要么有质变，探索闭环、自主的可能性。<br>
01:38:53 业界其他的非主流路线探索：LeCun 的 JEPA，李飞飞新创业等。<br>
01:41:21 港大正在推动 AI literacy 课程，所有专业都学，AI 应成为通识教育的一部分。<br>
01:48:39 达特茅斯会议为什么在智能前面加上 artificial？——也是追求和前辈不一样，想探索人类高级智能。<br>
01:52:20 科学竞争最关键的就是人，重要的是把资源分配给正确的人。</p>

<p><strong>相关链接：</strong></p>

<p>对话香港大学马毅：“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”<br>
<a href="https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ" rel="nofollow">https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ</a></p>

<p>【视频】马毅教授谈神经网络，《简约和自洽》：神经网络从黑盒到白盒，学习模型从开环到闭环<br>
（听完播客还有兴趣了解跟多的话，非常推荐这个视频，有图解、有现场，深入简出）<br>
<a href="https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464" rel="nofollow">https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464</a></p>

<p>忆生科技Engram正在招募优秀人才，简历请投递：<a href="mailto:recruit@transcengram.com" rel="nofollow">recruit@transcengram.com</a></p>

<p><strong>访谈中提到的论文：</strong></p>

<p>Scaling White-Box Transformers for Vision, 2024/5<br>
<a href="https://arxiv.org/abs/2405.20299" rel="nofollow">https://arxiv.org/abs/2405.20299</a></p>

<p>Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4<br>
<a href="https://arxiv.org/abs/2401.06209" rel="nofollow">https://arxiv.org/abs/2401.06209</a></p>

<p>White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11<br>
<a href="https://arxiv.org/abs/2311.13110" rel="nofollow">https://arxiv.org/abs/2311.13110</a></p>

<p>Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10<br>
<a href="https://arxiv.org/abs/2210.16782" rel="nofollow">https://arxiv.org/abs/2210.16782</a></p>

<p><strong>本期人物：</strong><br>
马毅，香港大学计算机系主任<br>
程曼祺，晚点 LatePost 科技报道编辑（微信：momochoqo；即刻：程曼祺_火柴Q）</p>

<p><strong>剪辑：甜食</strong></p>

<p><strong>附录：访谈中提到的技术术语、概念和人物</strong><br>
维纳：在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是：under control and communication in animals and machine（“或关于在动物和机器中控制和通信的科学”）<br>
香农：在 1940 年代前后提出信息论<br>
Yann LeCun，图灵奖获得者、Meta 首席科学家<br>
李飞飞，知名 AI 研究者，斯坦福大学教授<br>
何恺明，知名 AI 研究者，ResNet 作者<br>
1956 年达特茅斯会议：提出了人工智能（Artificial Intelligence）这一概念的会议<br>
ReduNet，马毅团队 2022 年发布的白盒大模型理论框架<br>
CRATE，马毅团队 2023 年提出的更新的白盒大模型<br>
JEPA，Yann LeCun 团队提出的一种世界模型架构</p>]]>
  </content:encoded>
  <itunes:summary>
    <![CDATA[<p>本期节目是「晚点 LatePost」上周发布的《对话香港大学马毅》的采访音频。（原文见 shownotes 末尾链接）。</p>

<p>马毅现在是港大计算机系主任和数据科学研究院院长。自 2000 年从加州伯克利大学博士毕业以来，马毅先后任职于伊利诺伊大学香槟分校（UIUC）、微软亚研院、上海科技大学、伯克利大学和香港大学。</p>

<p>在如今的 AI 领域，马毅是一位直言不讳的少数派。不少人相信用更多数据、更大算力做更大参数的模型，就可以实现通用人工智能，这就是大模型的 Scaling Laws，它被一些人视为“信仰”。</p>

<p>马毅则不相信这条路。他认为现在的深度学习网络本质上，都是在做压缩（compression)：就是从图像、声音和语言等高维信号里，找到能表示数据间相关性和规律的低维结构。</p>

<p>GPT 表现出来的数学推理等能力，在马毅看来本质还是依靠记忆和统计，就像一个接受填鸭式教育的、高分低能的学生，它并不能学到因果推理、逻辑等能力。这离他定义的智能还有相当距离。他认为智能最本质的特征是：能纠正自己现存知识的不足，而且能增加新的知识。</p>

<p>由此，马毅也完全不买账 AI 威胁论，他认为，说现在的 AI 危险的人，“要么是无知，要么是别有目的”。</p>

<p>为解释深度学习网络到底在做什么，马毅团队最近几年的重点工作是，白盒大模型，也就是用数学来解释深度学习网络的压缩过程，以找到更高效的压缩方式。</p>

<p>他也希望以此来对抗黑盒带来的误解，因为“历史上，任何有用的黑盒都可能变成迷信和巫术”。他担心 AI 威胁论可能带来过度监管，导致垄断，遏制创新。</p>

<p>真理不一定掌握在少数人手中，但少数派和观点竞争的存在增加了发现真知的概率。</p>

<p>*访谈过程中涉及了一些论文、著作和术语，我们也标注在了 shownotes 里的附录部分。</p>

<p><strong>时间线指引：</strong></p>

<p><strong>-现有主流路线的局限</strong><br>
02:49 工业界更关注现有方法提效，而白盒模型刚提出时的工程验证有限。<br>
05:08 现在的大模型是通过经验找到了一些有效的方法，但它引起的量变不是真正的智能。<br>
08:29 现有方法其实只模拟了记忆的局部功能，资源消耗大GPT 类模型仍“高分低能”。<br>
13:26 当整个community 都认可一两件事，可能忽略掉其他可能更重要的事，曾经的深度学习就是一个例子。<br>
15:45 如果你作为年轻人，相信只靠 Scaling Laws 就可以实现 AGI，你可以转行了。(这部分提及的文章是附录里的 wide eyes shut）<br>
18:44 因为研究不要怕特立独行：当年在微软亚研院招何恺明等员工，都会让大家想：你做的哪些事别人做不了？</p>

<p><strong>-智能的原则：简约与自洽；达到智能的可能路径：白盒、闭环、自主</strong><br>
21:19 2017 年回到伯克利后，开始梳理已有成果：现有深度网络都是在做“压缩”（compression)。<br>
23:18 白盒大模型是给这个压缩过程找到数学解释。<br>
24:52 科学史上的好想法总会被翻新。<br>
26:11 知道了压缩到数学原理，能帮助找到更高效的压缩方式。<br>
26:50 Everything should be made as simple as possible, but not any simpler.前半句对应简约，后半句对应自洽。<br>
29:39 为什么智能会出现？——世界上有值得学、能学到的规律。<br>
32:47 知识不等于智能，GPT-4 有更多知识，婴儿更智能。智能的本质特则会给你是能纠正现存知识的不足并增加新的知识。<br>
37:13 达到智能，除了从黑盒到白盒，还有从开环到闭环，从人工到自主。<br>
40:48 自主学习的含义之一是，人的学习是在大脑内部建模完成的，不需要真去对比外部物理信号，生物没有这个选项。<br>
46:17 跨学科研究和借鉴神经科学帮助形成了上述想法。</p>

<p><strong>-验证推演 &amp; 白盒对黑盒的祛魅</strong><br>
48:41 ReduNet 是一个框架，但工程实现还不够；CRATE 做了工程优化。<br>
55:32 历史上任何有用的黑盒都可能变成巫术。<br>
57:03 有人说 AI 是原子弹，我们看很可笑。<br>
57:33 政府应该监管技术的应用，而不是技术本身。<br>
59:07 从去年开始，更迫切感到要让更多人知道现在的 AI 在作什么，AI 没这么可怕。<br>
60:16 白盒更实际的作用：减少试错成本、GPU 成本。</p>

<p><strong>-对智能历史的梳理</strong><br>
01:05:04 为何机器智能的结构会类似生物智能？——尚未看到更高效地方法。<br>
01:07:13 从维纳的《控制论》开始，第一批研究智能的选择并没有区分机器与生物。<br>
01:09:58 闭环系统的好处，解决“灾难性以往”问题。<br>
01:13:13 对（人工）智能的研究并非始于1956年。<br>
01:15:26 深度网络的两次危机都与缺乏数学解释有关，但现在可能不会再发生。<br>
01:17:23 从生物学和神经科学中学习，猴子大脑机制与智能研究发现的相似性。<br>
01:20:36 真正的智能应具备自主学习和自我纠错的能力。</p>

<p><strong>-创业 &amp; 教育</strong><br>
01:24:14 学校做验证，公司做放大，希望证明白盒路线的可行。<br>
01:29:09 要么有量变，用白盒显著降低训练资源or提升训练效率；要么有质变，探索闭环、自主的可能性。<br>
01:38:53 业界其他的非主流路线探索：LeCun 的 JEPA，李飞飞新创业等。<br>
01:41:21 港大正在推动 AI literacy 课程，所有专业都学，AI 应成为通识教育的一部分。<br>
01:48:39 达特茅斯会议为什么在智能前面加上 artificial？——也是追求和前辈不一样，想探索人类高级智能。<br>
01:52:20 科学竞争最关键的就是人，重要的是把资源分配给正确的人。</p>

<p><strong>相关链接：</strong></p>

<p>对话香港大学马毅：“如果相信只靠 Scaling Laws 就能实现 AGI，你该改行了”<br>
<a href="https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ" rel="nofollow">https://mp.weixin.qq.com/s/YTLWgcsGds86lgW_druXBQ</a></p>

<p>【视频】马毅教授谈神经网络，《简约和自洽》：神经网络从黑盒到白盒，学习模型从开环到闭环<br>
（听完播客还有兴趣了解跟多的话，非常推荐这个视频，有图解、有现场，深入简出）<br>
<a href="https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464" rel="nofollow">https://www.bilibili.com/video/BV1tN411F77Z/?vd_source=3ea9875872e1534f62079295c4e2c464</a></p>

<p>忆生科技Engram正在招募优秀人才，简历请投递：<a href="mailto:recruit@transcengram.com" rel="nofollow">recruit@transcengram.com</a></p>

<p><strong>访谈中提到的论文：</strong></p>

<p>Scaling White-Box Transformers for Vision, 2024/5<br>
<a href="https://arxiv.org/abs/2405.20299" rel="nofollow">https://arxiv.org/abs/2405.20299</a></p>

<p>Eyes wide shut? exploring the visual shortcomings of multimodal llms, 2024/4<br>
<a href="https://arxiv.org/abs/2401.06209" rel="nofollow">https://arxiv.org/abs/2401.06209</a></p>

<p>White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? 2023/11<br>
<a href="https://arxiv.org/abs/2311.13110" rel="nofollow">https://arxiv.org/abs/2311.13110</a></p>

<p>Unsupervised Learning of Structured Representations via Closed-Loop Transcription, 2022/10<br>
<a href="https://arxiv.org/abs/2210.16782" rel="nofollow">https://arxiv.org/abs/2210.16782</a></p>

<p><strong>本期人物：</strong><br>
马毅，香港大学计算机系主任<br>
程曼祺，晚点 LatePost 科技报道编辑（微信：momochoqo；即刻：程曼祺_火柴Q）</p>

<p><strong>剪辑：甜食</strong></p>

<p><strong>附录：访谈中提到的技术术语、概念和人物</strong><br>
维纳：在 1940 年代前后提出控制论。播客中提到的《控制论》的副标题是：under control and communication in animals and machine（“或关于在动物和机器中控制和通信的科学”）<br>
香农：在 1940 年代前后提出信息论<br>
Yann LeCun，图灵奖获得者、Meta 首席科学家<br>
李飞飞，知名 AI 研究者，斯坦福大学教授<br>
何恺明，知名 AI 研究者，ResNet 作者<br>
1956 年达特茅斯会议：提出了人工智能（Artificial Intelligence）这一概念的会议<br>
ReduNet，马毅团队 2022 年发布的白盒大模型理论框架<br>
CRATE，马毅团队 2023 年提出的更新的白盒大模型<br>
JEPA，Yann LeCun 团队提出的一种世界模型架构</p>]]>
  </itunes:summary>
</item>
  </channel>
</rss>
