我给线性注意力找“金主”,字节 say No,MiniMax say Yes

Episode 104 · March 4th, 2025 · 1 hr 26 mins

About this Episode

「继续来聊“注意力”,不止技术,也有研发故事。」
(本期因录音 bug,音质有波动;不时出现“变声期”,请见谅。)

上期,我们与清华的两位博士生,肖朝军和傅天予,聊了稀疏注意力机制的改进,也以注意力为线索,串起了大模型的优化史。上期主要聊了稀疏注意力。

这期,我们来聊注意力机制的另一大改进方向:线性注意力。

MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,01 就用到了他们开发的线性注意力机制,lightning attention。

本期,我邀请了这个项目的负责人,MiniMax 高级研究总监,负责 01 模型网络架构的钟怡然,来与我们一起聊研究线性注意力的研发过程。

钟怡然曾担任上海人工智能实验室青年科学家,是新架构探索组的 PI,也就是项目负责人;他在澳洲国立大学获得博士学位,师从李宏东教授和 Richard Hartley 院士。

在 2021 年,线性注意力还是一个“看起来很美好的泡泡”,怡然和团队就开始探索线性架构的实现。

当 2024 年年中,MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时,线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板,投了公司超过 80% 的研发资源。

当然,训练模型不是戏剧性的梭哈。在训 01 前,MiniMax 团队通过 3700 次预训练测试,去预测这种新架构在更大参数的模型是否也有好的表现。(这其中不少都是小规模实验。)这期节目,我们完整聊了这个过程。

在效率上线上,从计算方法推导,当序列非常长,线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上,也就是线性注意力的模型,能否和 Transformer 模型一样聪明,甚至更聪明。现在还没有谁能给出有绝对说服力的答案。

这也是之后 MiniMax 的技术进展,可能会揭晓的悬念。

本期嘉宾:
钟怡然,MiniMax 高级研发总监

时间线跳转:
- MiniMax 开源:为什么第一个模型选了 01
05:46 开源是为了展示架构创新,吸引更多人才
08:20 开源后社区反馈集中在推理效率与多模态支持,MiniMax 把推理优化贡献到了开源框架 vLLM 中
10:20 开源要有影响力需要更多工作,MiniMax-01 当前开源版本参数过大,个人开发者确实参与受限

- MiniMax-01 中的线性注意力改进:7 混 1 结构,100 万 Token 序列长度下提速 2700 倍
13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序,将复杂度从二次降至线性
15:26 稀疏注意力(如NSA、Mobile)在小模型表现尚可,但线性注意力在参数规模扩大后优势显著
20:23 纯线性注意力在召回能力(如“大海捞针”任务)上存在缺陷,团队通过混合架构(每 7 层线性注意力加入 1 层 Softmax 注意力)优化
27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速,同时模型效果优于纯 Transformer
28:27 3700 次小模型实验验证架构可扩展性,扩大规模前要做充分验证

- 21 年开始的线性架构研发之旅:从“美好的泡泡”到 4560 亿参数大模型
30:24 2021 年开始做线性注意力研发时,它还是一个“美好的泡泡”
35:19 “我们是最懂线性注意力的人”,为什么这个模型不诞生在我们手上?
41:20 50% 的把握,投 80% 的资源
42:46 上规模后,发现了召回缺陷;一张大表,3700 个预训练任务
50:46 一个测试例子:MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5,可能和数据构造有关
52:52 线性架构也许是更适合推理模型的架构
01:00:51 线性架构能 work,仍是非共识

- “道心”之争
01:02:00 钟怡然坚信线性注意力是“无损优化”,混合架构效果甚至优于传统Transformer
01:11:23 MiniMax计划4月发布深度推理多模态模型,整合线性架构、原生多模态与强化学习
01:22:18 AGI愿景 vs 竞争驱动:DeepSeek 爆火后,但不改变产品是技术最大的证明

相关链接:
103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进
99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑
71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能
101:与王小川聊AIX医疗:通向“生命科学的数学原理”
103 期晚点聊图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》

附录:
QKV 计算:Query-Key-Value计算,注意力机制中用于生成上下文感知向量的核心步骤。
Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。
Jamba:由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。
vLLM:由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。
有损优化:以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。
无损优化:在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。
(另,更多关于线性注意力机制的术语也可见上期注释)

剪辑制作:Nick

本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆

欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。

请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: