大模型核心概念速查手册
面向嵌入式软件工程师的快速参考。
每个概念都配有:一句话解释 + 嵌入式类比 + 关联概念。
按主题分类,方便随时查阅。
一、基础概念
Token(词元)
- 解释:模型处理文本的基本单位,不是字也不是词
- 嵌入式类比:ADC采样点——原始连续信号被离散化为一个个采样点
- 关键数字:英文1 token约0.75词,中文1 token约1-2汉字
- 关联:Tokenizer、词表大小(通常32K-128K)
Embedding(词嵌入)
- 解释:将离散Token映射为连续向量的查表操作
- 嵌入式类比:LUT(查找表)——输入枚举值,输出浮点数组
- 关键数字:向量维度通常256-8192
- 关联:Token、Positional Encoding
Context Window(上下文窗口)
- 解释:模型一次能处理的最大Token数量
- 嵌入式类比:RAM大小——一次能放入的数据量有限
- 关键数字:GPT-4o: 12.8万, Claude: 20万, Gemini: 100万+
- 关联:注意力复杂度O(n^2)、KV Cache
Parameter(参数/权重)
- 解释:模型内部可学习的数值,训练过程就是在调整这些参数
- 嵌入式类比:PID控制器的Kp/Ki/Kd——需要校准才能工作正常
- 关键数字:GPT-3: 1750亿, Llama 3: 700亿, Phi-3: 38亿
- 关联:训练、微调、量化
Layer(层)
- 解释:神经网络的基本计算单元,多个层串联构成完整网络
- 嵌入式类比:信号处理链中的滤波级——每一级处理一个子任务
- 关键数字:GPT-3: 96层, Llama 3: 80层
- 关联:Transformer Block、深度
二、Transformer 组件
Self-Attention(自注意力)
- 解释:序列中每个位置都能看到所有其他位置,计算它们之间的相关性
- 嵌入式类比:全局中断系统——每个事件都能看到所有其他事件的优先级
- 计算:Attention(Q,K,V) = softmax(Q*K^T/sqrt(d)) * V
- 复杂度:O(n^2),n为序列长度
- 关联:Multi-Head、QKV
Q / K / V(Query / Key / Value)
- 解释:注意力的三个输入矩阵
- Query:我在找什么
- Key:我有什么可以被检索到
- Value:被找到后返回的内容
- 嵌入式类比:
- Q = 查询地址
- K = 存储地址
- V = 存储数据
- 关联:Self-Attention、Multi-Head、KV Cache
Multi-Head Attention(多头注意力)
- 解释:多组独立的Q/K/V并行计算,每组关注不同的信息子空间
- 嵌入式类比:多通道并行ADC——每个通道采集不同频段的信息
- 关键数字:通常8-32个头
- 关联:Self-Attention
Positional Encoding(位置编码)
- 解释:给没有位置概念的注意力机制注入顺序信息
- 嵌入式类比:数据包中的序号字段——让接收方知道数据包的顺序
- 实现:sin/cos函数组合,每个位置有唯一的编码向量
- 关联:Embedding
Layer Normalization(层归一化)
- 解释:对每个样本的激活值做归一化,使训练稳定
- 嵌入式类比:自动增益控制(AGC)——保持信号幅度在合理范围内
- 关联:训练稳定性、Residual Connection
Residual Connection(残差连接)
- 解释:将输入直接加到输出上,让梯度能顺畅流过深层网络
- 嵌入式类比:信号旁路——主路径+直连路径,避免信号衰减
- 公式:输出 = 输入 + F(输入)
- 关联:深层网络训练、梯度消失
Feed Forward Network(前馈网络)
- 解释:注意力之后的全连接层,通常包含一个非线性激活
- 嵌入式类比:查找表+非线性变换——对注意力提取的特征做进一步处理
- 结构:Linear -> GELU -> Linear
- 关联:Transformer Block
三、训练与推理
Pre-training(预训练)
- 解释:在大规模无标注数据上训练模型学习语言规律
- 嵌入式类比:产线标定——用大量标准样本校准设备参数
- 目标:预测下一个token
- 成本:占总训练成本80%以上
- 关联:微调、数据
Fine-tuning(微调)
- 解释:在预训练模型基础上,用标注数据适配具体任务
- 嵌入式类比:应用层校准——在通用标定基础上针对具体场景调整
- 方式:全参数微调、LoRA、Prompt Tuning
- 关联:预训练、对齐
Loss Function(损失函数)
- 解释:衡量模型预测与真实标签的差距,指导参数更新
- 嵌入式类比:误差信号——告诉你当前输出离目标有多远
- 常用:交叉熵(分类/生成)、均方误差(回归)
- 关联:梯度下降、优化器
Gradient Descent(梯度下降)
- 解释:沿损失函数梯度的反方向更新参数,使损失最小化
- 嵌入式类比:PID控制中的积分项——累积误差来修正输出
- 变体:SGD、Adam、AdamW
- 关联:学习率、优化器
Learning Rate(学习率)
- 解释:控制每次参数更新的步长
- 嵌入式类比:步进电机的步距角——太大走过头,太小走太慢
- 典型值:1e-5 ~ 1e-3
- 调度:Warmup(前期增大)+ Decay(后期减小)
- 关联:梯度下降、训练稳定性
Backpropagation(反向传播)
- 解释:从输出层向输入层高效计算每个参数梯度的算法
- 嵌入式类比:故障树分析——从最终故障现象逆向追溯每个环节的责任
- 核心:链式法则在计算图上的应用
- 关联:梯度下降、计算图
Inference(推理)
- 解释:用训练好的模型对新数据做预测
- 嵌入式类比:固件运行——用标定好的参数处理实时数据
- 特点:自回归生成,每次生成一个token,重复n次
- 优化:KV Cache、量化、批处理
- 关联:训练、部署
四、优化与部署
KV Cache
- 解释:推理时缓存已计算的Key/Value矩阵,避免重复计算
- 嵌入式类比:DMA缓存——把常用数据放到快速内存中
- 效果:生成速度提升2-5倍
- 代价:额外的内存占用(与序列长度成正比)
- 关联:推理优化、上下文窗口
Quantization(量化)
- 解释:将FP32权重压缩为INT8/INT4,减少内存和计算量
- 嵌入式类比:浮点转定点——牺牲精度换效率和功耗
- 精度对比:
- FP16: 无损失,14GB(7B模型)
- INT8: <1%损失,7GB
- INT4: 1-3%损失,3.5GB
- 关联:边缘部署、模型压缩
LoRA(Low-Rank Adaptation)
- 解释:冻结原模型,只训练少量低秩矩阵来适配新任务
- 嵌入式类比:打补丁——不改主代码,只加一个小的配置层
- 参数量:全参数的0.01%-1%
- 公式:W_new = W_frozen + A*B,其中r<<d
- 关联:微调、参数高效
Temperature(温度)
- 解释:控制生成文本的随机性,高温度更多样,低温度更确定
- 嵌入式类比:PID参数中的比例系数——影响系统的响应激进程度
- 典型值:0.1-0.3(事实)、0.5-0.7(对话)、0.8-1.0(创意)
- 关联:采样策略
Hallucination(幻觉)
- 解释:模型生成看似合理但不真实的内容
- 原因:模型在预测下一个token的概率分布,而非检索事实
- 缓解:RAG(检索增强)、提供参考资料、要求引用来源
- 关联:概率模型、RAG
五、模型家族
GPT(Generative Pre-trained Transformer)
- 架构:Decoder-only
- 特点:因果注意力,从左到右生成
- 代表:GPT-3、GPT-3.5、GPT-4、GPT-4o、o1
- 适合:文本生成、对话、代码
BERT
- 架构:Encoder-only
- 特点:双向注意力,理解类任务强
- 代表:BERT、RoBERTa、DeBERTa
- 适合:文本分类、NER、问答(抽取式)
LLaMA
- 架构:Decoder-only
- 特点:开源,社区生态大,可私有部署
- 代表:LLaMA 2、LLaMA 3、Llama 3.1
- 适合:私有部署、微调、研究
国产模型
- 通义千问(Qwen):阿里出品,中文能力强,开源友好
- 文心一言(ERNIE):百度出品,知识图谱融合
- GLM:智谱AI,中英双语,学术+商业
- DeepSeek:深度求索,代码能力强,开源免费
六、概念关系图
Token ──(Tokenizer)──> Token ID ──(Embedding)──> 向量序列
|
v
Positional Encoding
|
v
+---------------------+
| Transformer |
| Block x N |
| |
| Self-Attention |
| Q K V |
| Multi-Head |
| | |
| Feed-Forward |
| Residual + LayerNorm|
+---------------------+
|
v
Linear Layer
|
v
Softmax -> 概率分布
|
v
Sample -> 下一个Token
|
v
(循环直到结束)