大模型原理与概念·蒸馏
定位:开发者与架构师必读。剥离数学推导,保留大模型运行机制的核心直觉。
目标:理解 Transformer、训练、推理、量化 的本质。
一、核心心法:大模型是什么?
1. 概率状态机
- 思想:大模型不是知识检索引擎,而是一个极度复杂的下一个词预测器。
- 机制:给定前面的词,计算词表中每个词出现的概率,采样输出。
- 嵌入式类比:类似于马尔可夫链的高级版。它不存储事实,它存储的是“词与词之间的转移概率”。
- 原文金句:
"大模型没有意识,它只是在计算‘接下来最可能说什么’。这种计算极其精准,以至于看起来像是在思考。"
2. 规模涌现定律
- 思想:当模型参数量、数据量、算力达到临界点,能力会发生质变(涌现)。
- 现象:从小模型到 大模型,不是线性的提升,而是出现了逻辑推理、代码生成等“新能力”。
- 原文金句:
"大力出奇迹。Scaling Law(缩放定律)是目前 AI 领域最确定的物理法则。"
二、Transformer 架构蒸馏(核心引擎)
| 组件 | 核心作用 | 嵌入式/硬件类比 | 关键特征 |
|---|---|---|---|
| Token (词元) | 文本处理的最小单位 | ADC 采样点 | 1 Token ≈ 0.75 英文单词 ≈ 1.5 汉字 |
| Embedding (词嵌入) | 将 Token 映射为稠密向量 | LUT (查找表) | 语义相近的词,向量空间距离近 |
| Self-Attention (自注意力) | 计算序列中所有词的相关性 | 全局中断优先级/全互联矩阵 | 每个词都能看到所有其他词,复杂度 O(N²) |
| Positional Encoding (位置编码) | 注入词序信息 | 时间戳/序列号 | Transformer 本身无位置概念,需额外注入 |
| Multi-Head Attention | 多组注意力并行计算 | 多核并行处理/多通道 DMA | 不同的 Head 关注不同的特征子空间 |
| Feed-Forward (前馈网络) | 对特征进行非线性变换 | DSP / 算子处理单元 | 通常包含激活函数 (GELU/ReLU) |
架构本质:
- Decoder-only (GPT 类):单向掩码,只看过去,适合生成。
- Encoder-only (BERT 类):双向可见,看全貌,适合理解。
- Encoder-Decoder (T5 类):理解 + 生成,适合翻译/摘要。
原文金句:
"Attention is all you need. Transformer 的核心突破在于去掉了 RNN 的循环依赖,实现了全局并行计算。"
三、生命周期蒸馏:从训练到推理
1. 训练 (Training) = 产线标定
- 预训练 (Pre-training):
- 动作:海量无标注数据,预测下一个词。
- 目的:学习语言规律和世界知识(通识教育)。
- 成本:占总成本 80%+,需万卡集群。
- 微调 (Fine-tuning):
- 动作:特定任务数据(问答、指令)。
- 目的:激发模型特定能力,学会遵循指令(专业培训)。
- 方法:全量微调(贵)、LoRA(便宜,加旁路矩阵)。
2. 推理 (Inference) = 设备运行
Prefill (预填充):
- 处理输入 Prompt,计算 KV Cache。
- 瓶颈:计算密集(Compute Bound),类似编译。
Decoding (解码):
- 逐个生成 Token,更新 KV Cache。
- 瓶颈:访存密集(Memory Bound),类似数据搬运。
原文金句:
"预训练是‘博闻强记’,微调是‘学以致用’,推理是‘现场发挥’。"
"推理阶段的瓶颈通常在内存带宽(Memory Wall),而非计算能力。"
四、关键技术蒸馏(部署与优化)
1. KV Cache = DMA 缓存
- 原理:缓存历史 Token 的 Key/Value 矩阵,避免重复计算。
- 作用:将生成速度提升数倍,但消耗显存。
- 类比:类似于 Cache Hit,用空间换时间。
2. 量化 (Quantization) = 浮点转定点
- 原理:将 FP16/FP32 权重压缩为 INT8/INT4。
- 收益:模型体积减小 2-8 倍,速度提升,精度损失极小(<5%)。
- 类比:类似于定点 DSP 优化,牺牲微小精度换取极大效率。
3. PagedAttention = 虚拟内存管理
原理:将 KV Cache 分页管理,解决显存碎片化问题。
收益:大幅提升吞吐量(vLLM 核心技术)。
原文金句:
"量化是边缘部署的必由之路。用最小的精度损失,换取最大的部署灵活性。"
五、灵魂金句库(Golden Quotes)
关于 Transformer
- "多头注意力相当于让模型用‘多副眼镜’同时看输入——每副眼镜关注不同的信息。"
- "位置编码让模型知道‘猫吃鱼’和‘鱼吃猫’是不同的。"
关于训练与数据
- "数据质量决定模型上限,模型架构决定逼近上限的能力。"
- "训练大模型就像炼丹:火候(学习率)、材料(数据)、炉子(算力)缺一不可。"
关于幻觉
- "幻觉是大模型的‘创造力’代价。它不知道真假,只知道概率。"