Transformer｜大模型的灵魂

ChatGPT、Claude、Gemini——所有改变世界的AI都建立在一个2017年提出的架构之上：Transformer。”Attention Is All You Need”这篇论文的核心是一个精巧的”软检索”系统：每个词向所有其他词发出查询，接收回答，经过近百层这样的交互后，模型”理解”了语言。本文将带你一步步拆解这个改变世界的算法。

📺 学习来源

📺 来源视频 1 — 3Blue1Brown
📺 来源视频 2 — 3Blue1Brown
📺 来源视频 3 — Grant Sanderson

本指南旨在基于 3Blue1Brown 关于 Transformer 的深度解析视频（第 5 章和第 6 章），系统性地阐述大语言模型（LLM）的核心架构、运作机制及关键数学概念。

一、 Transformer 架构核心概念

1.1 基本任务：预测下一个词元

Transformer 的核心目标是读取一段文本并预测序列中下一个出现的词元（Token）。这一过程不仅是生成文本的基础，也是模型理解语言深层含义的途径。

词元化（Tokenization）： 文本被拆分为小的片段，通常是单词或单词的一部分。
自回归生成： 模型通过重复预测下一个词元，并将其反馈回输入序列，从而逐字生成长篇内容。

1.2 嵌入空间（Embedding Space）

嵌入向量： 每个词元最初被关联到一个高维空间中的向量（如 GPT-3 为 12,288 维）。
语义方向： 在这个高维空间中，不同的方向代表不同的语义含义（例如性别、单复数、国籍等）。
上下文无关查找： 初始嵌入本质上是一个查找表，相同的词元在不同语境下初始向量是相同的（如 “mole” 的不同含义）。Transformer 的后续步骤负责根据上下文调整这些向量。

1.3 数据流转流程

输入： 文本拆分为词元序列。
嵌入： 词元转换为初始向量，并包含位置信息。
注意力模块（Attention Block）： 向量相互“交流”，根据周围词元更新自身含义。
多层感知机（MLP）： 对每个向量并行进行独立处理，通过一系列“问题”进一步提炼信息。
循环迭代： 数据交替经过多个注意力模块和 MLP（GPT-3 共 96 层）。
输出处理： 最后一个向量经过“去嵌入矩阵（Unembedding Matrix）”映射回词汇表大小，通过 Softmax 函数转化为概率分布。

二、深入理解注意力机制（Attention Mechanism）

注意力机制允许模型在处理特定词元时，“关注”序列中相关的其他词元，从而吸纳上下文信息。

2.1 查询、键、值（Q, K, V）

为了计算更新，每个向量会生成三个较小维度的向量：

查询（Query, Q）： 代表该词元正在寻找什么信息（例如：名词在寻找修饰它的形容词）。
键（Key, K）： 代表该词元能提供什么信息（例如：形容词声明自己可以修饰后面的名词）。
值（Value, V）： 如果匹配成功，实际要传递给其他词元的信息内容。

2.2 计算步骤

相似度匹配： 计算所有词元的查询向量与键向量之间的点积，得到相关性分数。
掩蔽（Masking）： 在生成式模型中，为了防止“偷看”后续词元，会将序列后方的分数设为负无穷。
标准化（Softmax）： 对分数进行 Softmax 处理，使每一列的权重总和为 1，形成注意力模式（Attention Pattern）。
加权求和： 根据注意力模式，将各个词元的值向量进行加权求和，得到变化量（Delta E）。
更新： 将变化量叠加回原始嵌入向量。

2.3 多头注意力（Multi-head Attention）

Transformer 并行运行多个注意力头（GPT-3 每层有 96 个头）。

每个头拥有独立的 W_Q, W_K, W_V 权重矩阵。
不同的头可以捕捉不同的语义关系（如语法结构、情感偏好、特定事实关联等）。

三、技术参数与数学细节

3.1 参数计数（以 GPT-3 为例）

组件	描述	参数估算
嵌入矩阵	50,257 词元 times 12,288 维	约 6.17 亿
注意力头	每个头包含 W_Q, W_K, W_V（各 128 维空间）	每个头约 630 万
注意力块总计	96 层 times 96 头/层	约 580 亿
模型总参数	包含 MLP 层、Unembedding 等	1,750 亿

3.2 关键函数

Softmax 函数： 将 Logits（原始分数）转换为概率分布。公式涉及 e 的指数运算和归一化。
温度（Temperature）： 在预测时调节 Softmax 的平滑程度。

* T=0：贪婪搜索，总是选概率最大的词（结果稳定但单调）。

* T 较大：增加低概率词的选择机会（结果更具创意但易产生幻觉或胡言乱语）。

四、短答练习题

Transformer 最初是在哪篇论文中提出的？

参考答案：* 2017 年的《Attention is All You Need》。

在 Transformer 的第一步中，为什么同一个单词的嵌入向量总是相同的？

参考答案：* 因为初始嵌入是从一个上下文无关的查找表中获取的，尚未经过注意力模块的语境化处理。

注意力机制中的“点积”有什么几何意义？

参考答案：* 点积衡量两个向量在空间中的对齐程度（相似度）。正值表示方向相似，零表示垂直，负值表示方向相反。

什么是“掩蔽（Masking）”？它的作用是什么？

参考答案：* 掩蔽是在计算 Softmax 前将后续词元的相关性得分设为负无穷的操作。其作用是确保在训练和推理过程中，先出现的词汇不会受到后续词汇的影响。

为什么 Transformer 架构在近十年大获成功？

参考答案：* 关键在于它极其适合并行运算，能够充分利用 GPU 在短时间内完成海量计算，从而支持模型规模的巨大提升。

五、深度探索论述题

论述嵌入空间（Embedding Space）中“语义方向”的概念，并举例说明模型如何处理词义消歧（如“mole”的不同含义）。
详细解释查询（Query）、键（Key）和值（Value）三者之间的协作逻辑。在多头注意力的语境下，这种机制如何增强模型对复杂文学作品（如《哈利·波特》）的理解能力？
分析上下文大小（Context Size）对模型性能的限制。为什么扩大上下文窗口在计算上是极具挑战性的？（提示：考虑注意力模式网格的增长速度）。

六、术语表（Glossary）

术语	定义
Token (词元)	模型处理文本的最小单位，可以是单词、子词或字符。
Logits (对数几率)	经过网络处理后、进入 Softmax 之前的原始、未标准化的分数。
Attention Pattern (注意力模式)	一个网格，表示序列中每个词对其他词的相关性权重总和。
Residual Connection (残差连接)	将注意力模块输出的变化量（Delta E）加回到原始输入向量的过程。
MLP (多层感知机)	位于注意力层之后的模块，并行地对每个向量进行独立计算和精炼。
Softmax	一种数学函数，将向量转换为概率分布，使元素在 0 到 1 之间且总和为 1。
Unembedding Matrix	将高维语义向量映射回词汇表概率分布的权重矩阵。
Temperature (温度)	一个调节参数，用于控制模型输出概率分布的集中程度。