第 2 章 · Attention Is All You Need

如果上一章是「七十年的撞墙史」，这一章就是「有 8 个人决定不再撞墙，干脆把墙拆了」的故事。

我们今天回头看 Transformer，很容易把它当成"理所当然该出现的东西"—— GPT、Claude、Gemini、DeepSeek、Llama 都是它的孩子， ChatGPT 把它带进了普通人的生活，它似乎从一开始就该是这个样子。

但事情真的不是这样的。

在 2017 年 6 月那个夏天，当 8 位 Google 的研究者把一篇标题只有五个英文单词的论文扔到 arXiv 上时—— 没人觉得这是一篇会改变历史的论文。 NIPS 2017 的同期论文有 678 篇， Transformer 在当时只是其中一个"看起来挺有意思的小想法"。连作者自己后来都承认，他们写这篇论文时只是想把机器翻译做得更快一点，完全没料到七年之后全世界都在跑它的衍生品。

章节概要

2017 年之前的 NLP 范式（LSTM + attention）已经"很好用"了，Transformer 不是去打败弱者
8 位作者各自的来路与后来的去处，以及他们当时其实没把自己当主角
"Attention is all you need" 这个标题为什么是一个赌博式的主张
Transformer 真正解决的不是某个准确率指标，而是三个深层的结构性问题
论文里几个"工程细节"如何在七年后被证明决定了一切
一篇论文，怎么变成了一个时代

一、2017 年的 NLP 长什么样

上一章我们停在 LSTM 那里，但其实 2017 年初的 NLP 并不是停在 LSTM 上的"原始版本"。

那时候，研究者们已经在 LSTM 的基础上往上加了好几层东西，其中最重要的，叫 attention 机制—— 也就是 Attention Is All You Need 名字里的那个 attention，在 2017 年之前它早就被发明出来了。

Attention 不是 Transformer 发明的

这件事是常被误解的—— 人们以为 Transformer 发明了 attention，其实 attention 至少在 2014 年就已经出现在 Bahdanau 等人的机器翻译论文里。

它的原始动机很朴素：当用 LSTM 做机器翻译时，解码器（生成译文那一端）在写每一个英文词的时候， 不应该只依赖编码器最后吐出来的那一个状态向量—— 那相当于把整段文字压成一个固定大小的"摘要"再去翻译，信息损失太严重。

于是研究者发明了 attention： 让解码器在生成每个英文词时，"回头看"一眼整段中文，判断这一刻该重点关注中文里的哪几个词。

这个机制效果立竿见影。 2016 年 Google 推出的 GNMT（Google Neural Machine Translation）就是用了这种 "LSTM + attention" 的组合，把 Google 翻译的质量推到了一个新台阶—— 那次升级之后，许多专业译者第一次感到威胁。

所以 2017 年的范式是什么

简而言之，2017 年 NLP 的"标准答案"是这样一个三明治：

LSTM 编码器（读懂输入） + attention 机制（连接两端） + LSTM 解码器（写出输出）

这是当时所有顶尖机器翻译系统的形状—— Google 的 GNMT、Facebook 的翻译系统、学术界的 OpenNMT 工具包、全都是这个范式的不同变种。

它已经很好用了。基准测试上的 BLEU 分数比五年前提升了一大截，工业界开始大规模部署，论文产出稳定。

如果你在 2017 年初问 NLP 研究者"下一步是什么"，他们大概率会告诉你——"继续在 LSTM + attention 的框架里做更精细的改进"。比如更深的 LSTM、更聪明的 attention 变体、更好的训练技巧。

谁也没想到，六个月后，有人会站出来说："这一整套都可以扔掉"。

二、标题里的赌博

那个"站出来的人"，其实是 Google Brain 的一支八人小组。他们的论文在 2017 年 6 月 12 日提交到 arXiv，同年 12 月正式发表于 NIPS（即今天的 NeurIPS）会议。

但比起八位作者的名字，更值得先看的是这篇论文的标题—— 因为标题本身就是一次赌博。

标题是一句口号

这篇论文最不寻常的地方，是它的标题。

Attention Is All You Need. 注意力，就是你所需要的一切。

学术论文的标题通常是这样写的——

Improved Neural Machine Translation with Multi-Head Attention
A Novel Self-Attentive Architecture for Sequence Modeling
Towards Better Sequence-to-Sequence Learning with Attention Mechanisms

但这群人选了一个像广告语一样的句子。这种标题在学术界是反常的、甚至有点傲慢的。它没有解释做了什么，也没有暗示新意在哪里—— 标题本身直接抛出了一个结论：你不需要别的，注意力就够了。

据 Llion Jones 等作者后来在采访中回忆，标题里的 "All You Need" 灵感源自披头士那首 All You Need Is Love。当时组里有人觉得这个标题"太狂"，开会争论了几次，最终大家还是决定用——理由是「这本来就是我们这篇论文想表达的态度」。

标题背后的赌博

为什么说这是赌博？

因为整个 NLP 学界在 2017 年的共识是：

序列建模就该用 RNN（包括 LSTM、GRU 等变体）。 Attention 是一个辅助机制，加在 RNN 上面让它工作得更好。

而 Vaswani 这群人提出的方案是——

把 RNN 全部扔掉。从头到尾只用 attention。

这个方案当时在 Google 内部都不被看好。论文里那个 "Attention is all you need" 的 "all"—— 不是修辞，是真的字面意思：我们的网络里只有 attention（外加一些标准的 feedforward 层和归一化）。

如果失败了，这群人就是一个"故作惊人之语"的笑话团队。而如果成功了—— 他们将彻底改写整个 NLP 的范式。

三、它实际解决了什么

如果你不去看任何架构图，只看 Transformer 的实际效果，它解决了 RNN/LSTM 三个深层的结构性问题。这三个问题，是 LSTM + attention 怎么改良都绕不过去的。

解决 #1：训练并行化

LSTM 的硬伤是必须串行—— 我们在上一章用"听朋友讲故事，一次一个词"做过类比。计算第 100 个词的状态，必须先算完前 99 个词。你有再多的 GPU 也没用，GPU 在那里干等。

Transformer 因为没有 RNN，每个位置的计算互相之间没有时序依赖。你想算一个 1000 词序列，可以让 GPU 同时处理这 1000 个位置。 训练速度比 LSTM 快了一个数量级。

这件事在 2017 年并没有特别震撼，因为论文当时报告的训练速度提升是"几倍而已"。但这个特性的真正威力，是在模型变大之后才被发现的—— GPT-3、GPT-4 这种百亿、千亿参数的模型如果用 LSTM 训练， 今天的算力都不够。 Transformer 的并行性是 LLM 时代得以发生的物理前提。

解决 #2：长距离依赖

回忆上一章那个核心问题—— RNN/LSTM 里，第 1 个词和第 100 个词之间要传递信息， 必须经过中间 98 步。信息一边传一边稀释，传到终点已经面目全非。

Transformer 用 attention 把这件事直接干掉了—— 任意两个位置之间，都有一条直接连接。第 1 个词可以"直接看到"第 100 个词，没有中间商。

学术上的说法是：最大路径长度从 O(n) 降到了 O(1)。翻译成人话—— 不管句子多长，任意两个词之间的距离都是 1。 这是 Transformer 真正的核武器。 今天，DeepSeek V4 Pro、Claude Opus 4.7、GPT-5.5 等前沿模型能够在百万 token 上下文里进行近乎无损的处理，背后的底层逻辑，都是从这一条特性中生长出来的。

解决 #3：可扩展性

LSTM 有一个"软上限"—— 当你把网络加深到一定层数（大概 8 层左右），继续加层带来的提升就会迅速衰减，甚至开始变差。这是循环结构在反向传播时的数学宿命。

Transformer 没有这个问题。你想加多少层就加多少层—— 6 层是论文原版；BERT-base 是 12 层；GPT-3 是 96 层；GPT-4 据信超过 100 层。今天 2026 年的前沿模型动辄上百层，训练出来依然能收敛、依然能沉淀出能力。 架构可以无止境地扩大下去，而每次扩大都带来收益。

这个特性后来被 OpenAI 总结成了一句口号：

Scale is all you need.（规模就是一切。）

这是对 Attention is all you need 的化用，也是对它的延伸。事实证明这两个 "all you need" 加在一起，就足以孕育出 ChatGPT、Claude、Gemini、DeepSeek 和今天所有的大语言模型。

四、几个"工程细节"，后来都被证明价值连城

这篇论文不只是一个宏观主张，它还有很多看起来很小、却实际上决定了成败的"工程细节"。在这里我们只说几个点，不展开深层的数学逻辑——待下一章拆架构时详细说明。

细节 1：位置编码（Positional Encoding）

Attention 有一个先天缺陷——它本身完全不知道词的顺序。对 attention 来说，"我打了你"和"你打了我"是完全一样的句子，因为 attention 只看每个词之间的关系，不在乎谁先谁后。

Vaswani 团队的解决方案很怪—— 给每个位置加一组三角函数生成的"位置标签"，混进词的向量里。为什么是三角函数？论文里给了一个解释，但后续研究表明那个解释并不是最关键的原因。真实情况是：这样做就是 work，他们也不完全知道为什么。

这个"位置编码"后来催生了无数变体—— 相对位置编码、RoPE（旋转位置编码，今天 Llama 和 DeepSeek 都用它）、ALiBi 等等。今天 LLM 能处理 100 万 token 的上下文，背后的关键技术就是位置编码的演进。

细节 2：多头（Multi-Head）

Vaswani 团队没有用一个"大 attention"，而是把它切成 8 个"小 attention"并行跑—— 这就是"多头注意力"（Multi-Head Attention）。

直觉上的解释是： 不同的"头"可以关注不同类型的关系—— 一个头关注语法关系（主谓宾），另一个头关注语义相似性，再一个头关注共指消解（"他" 指谁），等等。

这个设计今天被证明是大模型语义能力的基础。从论文原版的 8 个头，到今天前沿大模型动辄使用几十上百个头，头越多，模型同时关注的"维度"就越丰富，可捕捉的语义关系也越多。

细节 3：那个神秘的 √d

论文里有一个"看起来很丑"的小操作—— attention 算出来一个相关性分数之后，要除以 √d（d 是向量维度）。

为什么要除？论文给的解释是"防止 softmax 进入饱和区"。你不用懂这个解释——你只需要知道： 这一个微不足道的除法，让训练稳定性提升了几十倍。没有这个除法，几乎所有今天的大模型都会训练崩溃。

这种"看似工程小事、实则决定生死"的细节，在这篇论文里至少有十几处。它们大多是 Noam Shazeer 那种"老工匠级"工程师贡献的，不是论文叙事的主线，但却是论文能跑通的真正原因。

五、八个人

这篇论文的署名顺序很特别，脚注里特意写道：「Equal contribution. Listing order is random.」（贡献相等，顺序随机。）这在学术界其实很少见——通常一作意味着最大贡献—— 他们用这种方式表达了对这次合作的珍视。

Ashish Vaswani（一作）—— 印度人，1986 年生，南加州大学 (USC) 计算机博士，2016 年加入 Google Brain。他不是组里资历最深的人，但他是把这篇论文从"想法"推到"完成"的总协调人。 2021 年离开 Google 后，他先共同创办了 Adept AI（做 AI 智能体的初创公司），之后从 Adept 离开，与 Niki Parmar 一起创办了 Essential AI，目前担任 CEO。

Noam Shazeer（二作）—— 美国人，1976 年生于费城，杜克大学数学+计算机本科。他在 2000 年就加入了 Google， 早期的一个著名成就是改进了 Google 搜索的拼写纠错器—— 那个你打错字 Google 会问你"您是不是要搜……"的功能。此后他逐渐成为 Google 内部公认最聪明的工程师之一，在这篇论文里贡献了很多关键的工程细节。

Shazeer 离开 Google 的故事很值得说。 2020 年前后，他和同事 Daniel de Freitas 在 Google 内部做了一个对话机器人Meena，他们觉得这东西可以惊艳全世界，但 Google 出于品牌安全考虑拒绝把 Meena 公开发布。 2021 年，Shazeer 和 de Freitas 失望地离开 Google，创办了 Character.AI—— 对，就是那个全球最著名的 AI 角色扮演聊天网站。然后 2022 年底 ChatGPT 横空出世——Google 错过的那艘船。

故事的转折发生在 2024 年 8 月： Google 用 27 亿美元的"许可协议"把 Character.AI 的核心技术买回来，同时把 Shazeer 请回 Google 担任 Gemini 项目的共同技术领导。由于他持有 Character 30–40% 的股份，据估计他个人在这笔交易中净得 7.5 亿到 10 亿美元。 ChatGPT 风潮三年里，他可能是 AI 圈个人套现最多的研究者。

Niki Parmar —— 印度裔女工程师。她在 Google Brain 期间参与了 Transformer 和后续多项关键工作，离开 Google 后与 Ashish Vaswani 一起创办了 Essential AI。关于她个人成长经历，公开资料比其他几位少得多。

Jakob Uszkoreit —— 德国人。他父亲 Hans Uszkoreit 是著名的计算语言学家，现任德国人工智能研究中心 (DFKI) 语言技术实验室主任。论文里"完全扔掉 RNN，光靠 attention 就够了"这个最大胆的主张，最初就是 Jakob 提出来的—— 有意思的是，连他父亲 Hans 当时都对这个想法持怀疑态度。论文之后，Jakob 离开 Google，创办了 Inceptive，把 Transformer 的思想用到 mRNA 序列设计上——用 AI 帮人类设计 mRNA 药物和疫苗。

Llion Jones —— 威尔士人，论文里负责很多模型实现的关键工程。 2023 年 7 月，他和前 Google Brain 研究员 David Ha、企业家 Ren Ito 一起，在东京创办了 Sakana AI—— 公司名来自日语的"魚"（さかな），寓意"一群鱼通过简单规则形成集体智能"。 Sakana AI 主攻"进化式" AI 模型组合方法，已经成为日本 AI 圈的明星公司， 2024 年估值约 190 亿日元。

Aidan Gomez —— 加拿大-英国双国籍，多伦多大学本科。 2017 年发表这篇论文时，他只有 20 岁，还是 Google Brain 的实习生—— 八个署名作者里他是最年轻的，差一大截。后来他去牛津读博士（中途暂停去创业，2024 年才正式拿到博士学位）。 2019 年他离开 Google 创办了 Cohere—— 一家专注企业 AI 解决方案的公司，截至 2025 年 9 月已融资约 16 亿美元，估值超过 70 亿美元。

Łukasz Kaiser —— 波兰人，Google Brain 资深研究员，也是 TensorFlow 早期核心团队成员，论文里负责 Tensor2Tensor 框架相关工作。他后来离开 Google 加入了 OpenAI，是 GPT 系列和后续 o1 推理模型背后的研究者之一。

Illia Polosukhin —— 乌克兰人，哈尔科夫理工学院毕业后到美国发展。他是论文最后一位作者，也是八人中最早离开 Google 的—— 还没等论文真正发挥影响，他就转身去做了完全不同的事情： 创办了区块链项目 NEAR Protocol。事后回看，他错过了自己亲手参与点燃的那场 AI 革命，但 NEAR 自己也成了 Web3 圈的重要玩家。他后来公开表示，希望 AI 更透明、用户可控，对单纯的政府监管能解决问题持怀疑态度。

一个值得停一停的事实

**八位作者，**截至 2025 年，没有一个还留在当年的 Google Brain 团队。

Vaswani、Parmar 创办 Essential AI
Shazeer 创办 Character.AI → 2024 被 Google 反向收购后回到 Google 领导 Gemini
Uszkoreit 创办 Inceptive（AI for mRNA）
Jones 共同创办 Sakana AI（东京）
Gomez 创办 Cohere
Kaiser 加入 OpenAI
Polosukhin 创办 NEAR Protocol（Web3）

他们带着这扇刚刚被自己打开的窗户走了出去，每个人都在用 Transformer 做着不同的事情—— 有人继续做 LLM 大模型，有人做 AI 智能体，有人做角色扮演，有人去搞生物医药，有人甚至去做了区块链。

这是科技史上少见的一幕——一篇论文同时孕育了一整代创业者。对照之下，论文当年发表时几乎没人意识到这会发生。

六、近十年之后

这篇论文在 2017 年 NIPS 上发表时，现场反响是"挺有意思"，但远谈不上"爆炸"。当年最火的论文是别的方向——计算机视觉、强化学习—— 机器翻译只是 NLP 里一个略显冷门的分支。

但接下来的故事大家都熟悉了——

论文族谱

2018 年 6 月，BERT 发布：Google 自己用 Transformer 的 encoder 部分，在阅读理解、问答等任务上把所有旧方法横扫一空。
2018 年 6 月，GPT-1 发布：OpenAI 用 Transformer 的 decoder 部分，证明了"先无监督预训练、再有监督微调"这条路。
2019 年，GPT-2 发布：15 亿参数，写出了让人怀疑"这是不是人写的"的文章。
2020 年，GPT-3 发布：1750 亿参数，第一次出现"涌现能力"（emergent abilities）。
2022 年 11 月，ChatGPT 发布：5 天获得 100 万用户，2 个月获得 1 亿用户。
2023 年，GPT-4 / Claude / Llama / Gemini / DeepSeek 全面开战。
2024–2026 年：上下文从十万级被推到百万级（DeepSeek V4 Pro、Claude Opus 4.7、GPT-5.5 都做到了百万 token 上下文）；多模态、视频生成、推理模型、AI Agent、本地部署——全部走进应用。

这一切的起因，都源自那篇 2017 年 6 月发表的、只有十一页的论文。

论文的引用数

截至 2025 年，Attention Is All You Need 在 Google Scholar 上的引用数已经突破 17.3 万次，跻身 21 世纪所有论文引用最多的前 10 名。作为对比—— 爱因斯坦 1905 年的狭义相对论论文，至今总引用数也只有几万次。 Transformer 论文是人类历史上引用增长最快的科技论文之一。

一个谦逊的注脚

论文里有一段话，被很多研究者反复引用—— 作者们在结论里写道：

We are excited about the future of attention-based models and plan to apply them to other tasks. We plan to extend the Transformer to problems involving input and output modalities other than text and to investigate local, restricted attention mechanisms to efficiently handle large inputs and outputs such as images, audio and video.
（我们对基于 attention 的模型的未来感到兴奋，计划将它们应用到其他任务上。我们计划把 Transformer 扩展到文本以外的输入输出形式，并研究受限注意力机制，以高效处理图像、音频、视频这种大输入大输出。）

九年之后再读这段，你会发现他们当时几乎预言了一切： GPT-4o 与 Gemini 的多模态、Sora 与 Seedance 2.0 的视频生成、 Whisper 的语音识别、以及 DeepSeek V4 Pro 等前沿模型里那些智能处理长输入的 attention 变体—— 全部是这段话里那个"计划"实现出来的。

但即便如此，他们也没料到这个"计划"会快得这么离谱。当年那群人写下"我们感到兴奋"的时候，谁也没想到九年之后， 全世界的人会因为他们这一段话产生的衍生品而改变自己写代码、写小说、看医生、谈恋爱的方式。

七、写给下一章

下一章我们会拆开 Transformer 这台机器—— 从一段话进入模型、到下一个词被预测出来，中间发生了什么。

如果说这一章是「为什么」，下一章就是「怎么做的」。

如果你愿意花一点时间看清楚 Transformer 的内部，在后面我们提到位置偏见、上下文窗口、注意力分配这些提示词工程概念时， 你就会有一种"看见骨头"的清晰感。

要点回顾

2017 年的 NLP 已经有"LSTM + attention"这个很好用的范式，Transformer 不是去打败弱者
Attention 不是 Transformer 发明的，但 Transformer 是第一个"只用 attention"的模型
八位作者中七位已离开 Google，分别创办了 Cohere、Character.AI、Sakana AI、Essential AI、Inceptive、NEAR 等公司——一篇论文孕育了一代创业者
标题 Attention Is All You Need 是一个赌博式的主张：在当时的共识里，"序列建模就该用 RNN"
Transformer 真正解决的是三个结构性问题：并行化、长距离依赖、可扩展性
论文里的"工程细节"（位置编码、多头、√d 缩放）每一个都被证明价值连城
这篇论文是人类历史上引用增长最快的科技论文之一，截至 2025 年已突破 17.3 万次引用

参考文献

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. In Advances in Neural Information Processing Systems (NIPS 2017), pp. 5998–6008. arXiv:1706.03762.
Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. In International Conference on Learning Representations (ICLR 2015). arXiv:1409.0473.
Wu, Y., Schuster, M., Chen, Z., et al. (2016). Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv:1609.08144.
Parikh, A. P., Täckström, O., Das, D., & Uszkoreit, J. (2016). A Decomposable Attention Model for Natural Language Inference. In EMNLP 2016. arXiv:1606.01933.
Levy, S. (2024). 8 Google Employees Invented Modern AI. Here's the Inside Story. WIRED, March 20, 2024.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL 2019. arXiv:1810.04805.
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI Technical Report.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI Technical Report.
Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems (NeurIPS 2020). arXiv:2005.14165.

第 2 章 · Attention Is All You Need ​

一、2017 年的 NLP 长什么样 ​

Attention 不是 Transformer 发明的 ​

所以 2017 年的范式是什么 ​

二、标题里的赌博 ​

标题是一句口号 ​

标题背后的赌博 ​

三、它实际解决了什么 ​

解决 #1：训练并行化 ​

解决 #2：长距离依赖 ​

解决 #3：可扩展性 ​

四、几个"工程细节"，后来都被证明价值连城 ​

细节 1：位置编码（Positional Encoding） ​

细节 2：多头（Multi-Head） ​

细节 3：那个神秘的 √d ​

五、八个人 ​

六、近十年之后 ​

论文族谱 ​

论文的引用数 ​

一个谦逊的注脚 ​

七、写给下一章 ​

参考文献 ​