Transformer|大模型的灵魂

ChatGPT、Claude、Gemini——所有改变世界的AI都建立在一个2017年提出的架构之上:Transformer。"Attention Is All You Need"这篇论文的核心是一个精巧的"软检索"系统:每个词向所有其他词

ChatGPT、Claude、Gemini——所有改变世界的AI都建立在一个2017年提出的架构之上:Transformer。”Attention Is All You Need”这篇论文的核心是一个精巧的”软检索”系统:每个词向所有其他词发出查询,接收回答,经过近百层这样的交互后,模型”理解”了语言。本文将带你一步步拆解这个改变世界的算法。

📺 学习来源

本指南旨在基于 3Blue1Brown 关于 Transformer 的深度解析视频(第 5 章和第 6 章),系统性地阐述大语言模型(LLM)的核心架构、运作机制及关键数学概念。


一、 Transformer 架构核心概念

1.1 基本任务:预测下一个词元

Transformer 的核心目标是读取一段文本并预测序列中下一个出现的词元(Token)。这一过程不仅是生成文本的基础,也是模型理解语言深层含义的途径。

  • 词元化(Tokenization): 文本被拆分为小的片段,通常是单词或单词的一部分。
  • 自回归生成: 模型通过重复预测下一个词元,并将其反馈回输入序列,从而逐字生成长篇内容。

1.2 嵌入空间(Embedding Space)

  • 嵌入向量: 每个词元最初被关联到一个高维空间中的向量(如 GPT-3 为 12,288 维)。
  • 语义方向: 在这个高维空间中,不同的方向代表不同的语义含义(例如性别、单复数、国籍等)。
  • 上下文无关查找: 初始嵌入本质上是一个查找表,相同的词元在不同语境下初始向量是相同的(如 “mole” 的不同含义)。Transformer 的后续步骤负责根据上下文调整这些向量。

1.3 数据流转流程

  1. 输入: 文本拆分为词元序列。
  2. 嵌入: 词元转换为初始向量,并包含位置信息。
  3. 注意力模块(Attention Block): 向量相互“交流”,根据周围词元更新自身含义。
  4. 多层感知机(MLP): 对每个向量并行进行独立处理,通过一系列“问题”进一步提炼信息。
  5. 循环迭代: 数据交替经过多个注意力模块和 MLP(GPT-3 共 96 层)。
  6. 输出处理: 最后一个向量经过“去嵌入矩阵(Unembedding Matrix)”映射回词汇表大小,通过 Softmax 函数转化为概率分布。

二、 深入理解注意力机制(Attention Mechanism)

注意力机制允许模型在处理特定词元时,“关注”序列中相关的其他词元,从而吸纳上下文信息。

2.1 查询、键、值(Q, K, V)

为了计算更新,每个向量会生成三个较小维度的向量:

  • 查询(Query, Q): 代表该词元正在寻找什么信息(例如:名词在寻找修饰它的形容词)。
  • 键(Key, K): 代表该词元能提供什么信息(例如:形容词声明自己可以修饰后面的名词)。
  • 值(Value, V): 如果匹配成功,实际要传递给其他词元的信息内容。

2.2 计算步骤

  1. 相似度匹配: 计算所有词元的查询向量与键向量之间的点积,得到相关性分数。
  2. 掩蔽(Masking): 在生成式模型中,为了防止“偷看”后续词元,会将序列后方的分数设为负无穷。
  3. 标准化(Softmax): 对分数进行 Softmax 处理,使每一列的权重总和为 1,形成注意力模式(Attention Pattern)
  4. 加权求和: 根据注意力模式,将各个词元的值向量进行加权求和,得到变化量(Delta E)。
  5. 更新: 将变化量叠加回原始嵌入向量。

2.3 多头注意力(Multi-head Attention)

Transformer 并行运行多个注意力头(GPT-3 每层有 96 个头)。

  • 每个头拥有独立的 W_Q, W_K, W_V 权重矩阵。
  • 不同的头可以捕捉不同的语义关系(如语法结构、情感偏好、特定事实关联等)。

三、 技术参数与数学细节

3.1 参数计数(以 GPT-3 为例)

组件 描述 参数估算
嵌入矩阵 50,257 词元 times 12,288 维 约 6.17 亿
注意力头 每个头包含 W_Q, W_K, W_V(各 128 维空间) 每个头约 630 万
注意力块总计 96 层 times 96 头/层 约 580 亿
模型总参数 包含 MLP 层、Unembedding 等 1,750 亿

3.2 关键函数

  • Softmax 函数: 将 Logits(原始分数)转换为概率分布。公式涉及 e 的指数运算和归一化。
  • 温度(Temperature): 在预测时调节 Softmax 的平滑程度。

* T=0:贪婪搜索,总是选概率最大的词(结果稳定但单调)。

* T 较大:增加低概率词的选择机会(结果更具创意但易产生幻觉或胡言乱语)。


四、 短答练习题

  1. Transformer 最初是在哪篇论文中提出的?

参考答案:* 2017 年的《Attention is All You Need》。

  1. 在 Transformer 的第一步中,为什么同一个单词的嵌入向量总是相同的?

参考答案:* 因为初始嵌入是从一个上下文无关的查找表中获取的,尚未经过注意力模块的语境化处理。

  1. 注意力机制中的“点积”有什么几何意义?

参考答案:* 点积衡量两个向量在空间中的对齐程度(相似度)。正值表示方向相似,零表示垂直,负值表示方向相反。

  1. 什么是“掩蔽(Masking)”?它的作用是什么?

参考答案:* 掩蔽是在计算 Softmax 前将后续词元的相关性得分设为负无穷的操作。其作用是确保在训练和推理过程中,先出现的词汇不会受到后续词汇的影响。

  1. 为什么 Transformer 架构在近十年大获成功?

参考答案:* 关键在于它极其适合并行运算,能够充分利用 GPU 在短时间内完成海量计算,从而支持模型规模的巨大提升。


五、 深度探索论述题

  1. 论述嵌入空间(Embedding Space)中“语义方向”的概念,并举例说明模型如何处理词义消歧(如“mole”的不同含义)。
  2. 详细解释查询(Query)、键(Key)和值(Value)三者之间的协作逻辑。在多头注意力的语境下,这种机制如何增强模型对复杂文学作品(如《哈利·波特》)的理解能力?
  3. 分析上下文大小(Context Size)对模型性能的限制。为什么扩大上下文窗口在计算上是极具挑战性的?(提示:考虑注意力模式网格的增长速度)。

六、 术语表(Glossary)

术语 定义
Token (词元) 模型处理文本的最小单位,可以是单词、子词或字符。
Logits (对数几率) 经过网络处理后、进入 Softmax 之前的原始、未标准化的分数。
Attention Pattern (注意力模式) 一个网格,表示序列中每个词对其他词的相关性权重总和。
Residual Connection (残差连接) 将注意力模块输出的变化量(Delta E)加回到原始输入向量的过程。
MLP (多层感知机) 位于注意力层之后的模块,并行地对每个向量进行独立计算和精炼。
Softmax 一种数学函数,将向量转换为概率分布,使元素在 0 到 1 之间且总和为 1。
Unembedding Matrix 将高维语义向量映射回词汇表概率分布的权重矩阵。
Temperature (温度) 一个调节参数,用于控制模型输出概率分布的集中程度。

Leave a Reply

Your email address will not be published. Required fields are marked *