大模型核心概念速查手册

面向嵌入式软件工程师的快速参考。
每个概念都配有：一句话解释 + 嵌入式类比 + 关联概念。
按主题分类，方便随时查阅。

一、基础概念

Token（词元）

解释：模型处理文本的基本单位，不是字也不是词
嵌入式类比：ADC采样点——原始连续信号被离散化为一个个采样点
关键数字：英文1 token约0.75词，中文1 token约1-2汉字
关联：Tokenizer、词表大小（通常32K-128K）

Embedding（词嵌入）

解释：将离散Token映射为连续向量的查表操作
嵌入式类比：LUT（查找表）——输入枚举值，输出浮点数组
关键数字：向量维度通常256-8192
关联：Token、Positional Encoding

Context Window（上下文窗口）

解释：模型一次能处理的最大Token数量
嵌入式类比：RAM大小——一次能放入的数据量有限
关键数字：GPT-4o: 12.8万, Claude: 20万, Gemini: 100万+
关联：注意力复杂度O(n^2)、KV Cache

Parameter（参数/权重）

解释：模型内部可学习的数值，训练过程就是在调整这些参数
嵌入式类比：PID控制器的Kp/Ki/Kd——需要校准才能工作正常
关键数字：GPT-3: 1750亿, Llama 3: 700亿, Phi-3: 38亿
关联：训练、微调、量化

Layer（层）

解释：神经网络的基本计算单元，多个层串联构成完整网络
嵌入式类比：信号处理链中的滤波级——每一级处理一个子任务
关键数字：GPT-3: 96层, Llama 3: 80层
关联：Transformer Block、深度

二、Transformer 组件

Self-Attention（自注意力）

解释：序列中每个位置都能看到所有其他位置，计算它们之间的相关性
嵌入式类比：全局中断系统——每个事件都能看到所有其他事件的优先级
计算：Attention(Q,K,V) = softmax(Q*K^T/sqrt(d)) * V
复杂度：O(n^2)，n为序列长度
关联：Multi-Head、QKV

Q / K / V（Query / Key / Value）

解释：注意力的三个输入矩阵
- Query：我在找什么
- Key：我有什么可以被检索到
- Value：被找到后返回的内容
嵌入式类比：
- Q = 查询地址
- K = 存储地址
- V = 存储数据
关联：Self-Attention、Multi-Head、KV Cache

Multi-Head Attention（多头注意力）

解释：多组独立的Q/K/V并行计算，每组关注不同的信息子空间
嵌入式类比：多通道并行ADC——每个通道采集不同频段的信息
关键数字：通常8-32个头
关联：Self-Attention

Positional Encoding（位置编码）

解释：给没有位置概念的注意力机制注入顺序信息
嵌入式类比：数据包中的序号字段——让接收方知道数据包的顺序
实现：sin/cos函数组合，每个位置有唯一的编码向量
关联：Embedding

Layer Normalization（层归一化）

解释：对每个样本的激活值做归一化，使训练稳定
嵌入式类比：自动增益控制(AGC)——保持信号幅度在合理范围内
关联：训练稳定性、Residual Connection

Residual Connection（残差连接）

解释：将输入直接加到输出上，让梯度能顺畅流过深层网络
嵌入式类比：信号旁路——主路径+直连路径，避免信号衰减
公式：输出 = 输入 + F(输入)
关联：深层网络训练、梯度消失

Feed Forward Network（前馈网络）

解释：注意力之后的全连接层，通常包含一个非线性激活
嵌入式类比：查找表+非线性变换——对注意力提取的特征做进一步处理
结构：Linear -> GELU -> Linear
关联：Transformer Block

三、训练与推理

Pre-training（预训练）

解释：在大规模无标注数据上训练模型学习语言规律
嵌入式类比：产线标定——用大量标准样本校准设备参数
目标：预测下一个token
成本：占总训练成本80%以上
关联：微调、数据

Fine-tuning（微调）

解释：在预训练模型基础上，用标注数据适配具体任务
嵌入式类比：应用层校准——在通用标定基础上针对具体场景调整
方式：全参数微调、LoRA、Prompt Tuning
关联：预训练、对齐

Loss Function（损失函数）

解释：衡量模型预测与真实标签的差距，指导参数更新
嵌入式类比：误差信号——告诉你当前输出离目标有多远
常用：交叉熵（分类/生成）、均方误差（回归）
关联：梯度下降、优化器

Gradient Descent（梯度下降）

解释：沿损失函数梯度的反方向更新参数，使损失最小化
嵌入式类比：PID控制中的积分项——累积误差来修正输出
变体：SGD、Adam、AdamW
关联：学习率、优化器

Learning Rate（学习率）

解释：控制每次参数更新的步长
嵌入式类比：步进电机的步距角——太大走过头，太小走太慢
典型值：1e-5 ~ 1e-3
调度：Warmup（前期增大）+ Decay（后期减小）
关联：梯度下降、训练稳定性

Backpropagation（反向传播）

解释：从输出层向输入层高效计算每个参数梯度的算法
嵌入式类比：故障树分析——从最终故障现象逆向追溯每个环节的责任
核心：链式法则在计算图上的应用
关联：梯度下降、计算图

Inference（推理）

解释：用训练好的模型对新数据做预测
嵌入式类比：固件运行——用标定好的参数处理实时数据
特点：自回归生成，每次生成一个token，重复n次
优化：KV Cache、量化、批处理
关联：训练、部署

四、优化与部署

KV Cache

解释：推理时缓存已计算的Key/Value矩阵，避免重复计算
嵌入式类比：DMA缓存——把常用数据放到快速内存中
效果：生成速度提升2-5倍
代价：额外的内存占用（与序列长度成正比）
关联：推理优化、上下文窗口

Quantization（量化）

解释：将FP32权重压缩为INT8/INT4，减少内存和计算量
嵌入式类比：浮点转定点——牺牲精度换效率和功耗
精度对比：
- FP16: 无损失，14GB(7B模型)
- INT8: <1%损失，7GB
- INT4: 1-3%损失，3.5GB
关联：边缘部署、模型压缩

LoRA（Low-Rank Adaptation）

解释：冻结原模型，只训练少量低秩矩阵来适配新任务
嵌入式类比：打补丁——不改主代码，只加一个小的配置层
参数量：全参数的0.01%-1%
公式：W_new = W_frozen + A*B，其中r<<d
关联：微调、参数高效

Temperature（温度）

解释：控制生成文本的随机性，高温度更多样，低温度更确定
嵌入式类比：PID参数中的比例系数——影响系统的响应激进程度
典型值：0.1-0.3（事实）、0.5-0.7（对话）、0.8-1.0（创意）
关联：采样策略

Hallucination（幻觉）

解释：模型生成看似合理但不真实的内容
原因：模型在预测下一个token的概率分布，而非检索事实
缓解：RAG（检索增强）、提供参考资料、要求引用来源
关联：概率模型、RAG

五、模型家族

GPT（Generative Pre-trained Transformer）

架构：Decoder-only
特点：因果注意力，从左到右生成
代表：GPT-3、GPT-3.5、GPT-4、GPT-4o、o1
适合：文本生成、对话、代码

BERT

架构：Encoder-only
特点：双向注意力，理解类任务强
代表：BERT、RoBERTa、DeBERTa
适合：文本分类、NER、问答（抽取式）

LLaMA

架构：Decoder-only
特点：开源，社区生态大，可私有部署
代表：LLaMA 2、LLaMA 3、Llama 3.1
适合：私有部署、微调、研究

国产模型

通义千问(Qwen)：阿里出品，中文能力强，开源友好
文心一言(ERNIE)：百度出品，知识图谱融合
GLM：智谱AI，中英双语，学术+商业
DeepSeek：深度求索，代码能力强，开源免费

六、概念关系图

Token ──(Tokenizer)──> Token ID ──(Embedding)──> 向量序列
                                                      |
                                                      v
                                               Positional Encoding
                                                      |
                                                      v
                                          +---------------------+
                                          |   Transformer      |
                                          |   Block x N        |
                                          |                    |
                                          | Self-Attention     |
                                          |   Q  K  V          |
                                          | Multi-Head         |
                                          |   |                |
                                          | Feed-Forward       |
                                          | Residual + LayerNorm|
                                          +---------------------+
                                                      |
                                                      v
                                               Linear Layer
                                                      |
                                                      v
                                             Softmax -> 概率分布
                                                      |
                                                      v
                                             Sample -> 下一个Token
                                                      |
                                                      v
                                              （循环直到结束）

大模型核心概念速查手册

大模型核心概念速查手册

一、基础概念

Token（词元）

Embedding（词嵌入）

Context Window（上下文窗口）

Parameter（参数/权重）

Layer（层）

二、Transformer 组件

Self-Attention（自注意力）

Q / K / V（Query / Key / Value）

Multi-Head Attention（多头注意力）

Positional Encoding（位置编码）

Layer Normalization（层归一化）

Residual Connection（残差连接）

Feed Forward Network（前馈网络）

三、训练与推理

Pre-training（预训练）

Fine-tuning（微调）

Loss Function（损失函数）

Gradient Descent（梯度下降）

Learning Rate（学习率）

Backpropagation（反向传播）

Inference（推理）

四、优化与部署

KV Cache

Quantization（量化）

LoRA（Low-Rank Adaptation）

Temperature（温度）

Hallucination（幻觉）

五、模型家族

GPT（Generative Pre-trained Transformer）

BERT

LLaMA

国产模型

六、概念关系图

相关文章

大模型原理与概念蒸馏

大模型全景指南：从入门到权威使用者

嵌入式工程师的大模型学习路线图