大模型原理与概念·蒸馏

定位：开发者与架构师必读。剥离数学推导，保留大模型运行机制的核心直觉。
目标：理解 Transformer、训练、推理、量化的本质。

一、核心心法：大模型是什么？

组件	核心作用	嵌入式/硬件类比	关键特征
Token (词元)	文本处理的最小单位	ADC 采样点	1 Token ≈ 0.75 英文单词 ≈ 1.5 汉字
Embedding (词嵌入)	将 Token 映射为稠密向量	LUT (查找表)	语义相近的词，向量空间距离近
Self-Attention (自注意力)	计算序列中所有词的相关性	全局中断优先级/全互联矩阵	每个词都能看到所有其他词，复杂度 O(N²)
Positional Encoding (位置编码)	注入词序信息	时间戳/序列号	Transformer 本身无位置概念，需额外注入
Multi-Head Attention	多组注意力并行计算	多核并行处理/多通道 DMA	不同的 Head 关注不同的特征子空间
Feed-Forward (前馈网络)	对特征进行非线性变换	DSP / 算子处理单元	通常包含激活函数 (GELU/ReLU)

架构本质：
- Decoder-only (GPT 类)：单向掩码，只看过去，适合生成。
- Encoder-only (BERT 类)：双向可见，看全貌，适合理解。
- Encoder-Decoder (T5 类)：理解 + 生成，适合翻译/摘要。
原文金句：

"Attention is all you need. Transformer 的核心突破在于去掉了 RNN 的循环依赖，实现了全局并行计算。"

预训练 (Pre-training)：
- 动作：海量无标注数据，预测下一个词。
- 目的：学习语言规律和世界知识（通识教育）。
- 成本：占总成本 80%+，需万卡集群。
微调 (Fine-tuning)：
- 动作：特定任务数据（问答、指令）。
- 目的：激发模型特定能力，学会遵循指令（专业培训）。
- 方法：全量微调（贵）、LoRA（便宜，加旁路矩阵）。

Prefill (预填充)：
- 处理输入 Prompt，计算 KV Cache。
- 瓶颈：计算密集（Compute Bound），类似编译。
Decoding (解码)：
- 逐个生成 Token，更新 KV Cache。
- 瓶颈：访存密集（Memory Bound），类似数据搬运。
原文金句：

"预训练是‘博闻强记’，微调是‘学以致用’，推理是‘现场发挥’。"
"推理阶段的瓶颈通常在内存带宽（Memory Wall），而非计算能力。"

关于 Transformer

"多头注意力相当于让模型用‘多副眼镜’同时看输入——每副眼镜关注不同的信息。"

"位置编码让模型知道‘猫吃鱼’和‘鱼吃猫’是不同的。"

关于训练与数据

"数据质量决定模型上限，模型架构决定逼近上限的能力。"

"训练大模型就像炼丹：火候（学习率）、材料（数据）、炉子（算力）缺一不可。"

关于幻觉

"幻觉是大模型的‘创造力’代价。它不知道真假，只知道概率。"