DevSpace
技术🧰 工具资源2026-05-26·3 分钟阅读

大模型核心概念速查手册

面向嵌入式工程师的快速参考,每个概念配有嵌入式类比,按主题分类方便查阅。

AI大模型概念速查Transformer

大模型核心概念速查手册

面向嵌入式软件工程师的快速参考。
每个概念都配有:一句话解释 + 嵌入式类比 + 关联概念。
按主题分类,方便随时查阅。


一、基础概念

Token(词元)

  • 解释:模型处理文本的基本单位,不是字也不是词
  • 嵌入式类比:ADC采样点——原始连续信号被离散化为一个个采样点
  • 关键数字:英文1 token约0.75词,中文1 token约1-2汉字
  • 关联:Tokenizer、词表大小(通常32K-128K)

Embedding(词嵌入)

  • 解释:将离散Token映射为连续向量的查表操作
  • 嵌入式类比:LUT(查找表)——输入枚举值,输出浮点数组
  • 关键数字:向量维度通常256-8192
  • 关联:Token、Positional Encoding

Context Window(上下文窗口)

  • 解释:模型一次能处理的最大Token数量
  • 嵌入式类比:RAM大小——一次能放入的数据量有限
  • 关键数字:GPT-4o: 12.8万, Claude: 20万, Gemini: 100万+
  • 关联:注意力复杂度O(n^2)、KV Cache

Parameter(参数/权重)

  • 解释:模型内部可学习的数值,训练过程就是在调整这些参数
  • 嵌入式类比:PID控制器的Kp/Ki/Kd——需要校准才能工作正常
  • 关键数字:GPT-3: 1750亿, Llama 3: 700亿, Phi-3: 38亿
  • 关联:训练、微调、量化

Layer(层)

  • 解释:神经网络的基本计算单元,多个层串联构成完整网络
  • 嵌入式类比:信号处理链中的滤波级——每一级处理一个子任务
  • 关键数字:GPT-3: 96层, Llama 3: 80层
  • 关联:Transformer Block、深度

二、Transformer 组件

Self-Attention(自注意力)

  • 解释:序列中每个位置都能看到所有其他位置,计算它们之间的相关性
  • 嵌入式类比:全局中断系统——每个事件都能看到所有其他事件的优先级
  • 计算:Attention(Q,K,V) = softmax(Q*K^T/sqrt(d)) * V
  • 复杂度:O(n^2),n为序列长度
  • 关联:Multi-Head、QKV

Q / K / V(Query / Key / Value)

  • 解释:注意力的三个输入矩阵
    • Query:我在找什么
    • Key:我有什么可以被检索到
    • Value:被找到后返回的内容
  • 嵌入式类比
    • Q = 查询地址
    • K = 存储地址
    • V = 存储数据
  • 关联:Self-Attention、Multi-Head、KV Cache

Multi-Head Attention(多头注意力)

  • 解释:多组独立的Q/K/V并行计算,每组关注不同的信息子空间
  • 嵌入式类比:多通道并行ADC——每个通道采集不同频段的信息
  • 关键数字:通常8-32个头
  • 关联:Self-Attention

Positional Encoding(位置编码)

  • 解释:给没有位置概念的注意力机制注入顺序信息
  • 嵌入式类比:数据包中的序号字段——让接收方知道数据包的顺序
  • 实现:sin/cos函数组合,每个位置有唯一的编码向量
  • 关联:Embedding

Layer Normalization(层归一化)

  • 解释:对每个样本的激活值做归一化,使训练稳定
  • 嵌入式类比:自动增益控制(AGC)——保持信号幅度在合理范围内
  • 关联:训练稳定性、Residual Connection

Residual Connection(残差连接)

  • 解释:将输入直接加到输出上,让梯度能顺畅流过深层网络
  • 嵌入式类比:信号旁路——主路径+直连路径,避免信号衰减
  • 公式:输出 = 输入 + F(输入)
  • 关联:深层网络训练、梯度消失

Feed Forward Network(前馈网络)

  • 解释:注意力之后的全连接层,通常包含一个非线性激活
  • 嵌入式类比:查找表+非线性变换——对注意力提取的特征做进一步处理
  • 结构:Linear -> GELU -> Linear
  • 关联:Transformer Block

三、训练与推理

Pre-training(预训练)

  • 解释:在大规模无标注数据上训练模型学习语言规律
  • 嵌入式类比:产线标定——用大量标准样本校准设备参数
  • 目标:预测下一个token
  • 成本:占总训练成本80%以上
  • 关联:微调、数据

Fine-tuning(微调)

  • 解释:在预训练模型基础上,用标注数据适配具体任务
  • 嵌入式类比:应用层校准——在通用标定基础上针对具体场景调整
  • 方式:全参数微调、LoRA、Prompt Tuning
  • 关联:预训练、对齐

Loss Function(损失函数)

  • 解释:衡量模型预测与真实标签的差距,指导参数更新
  • 嵌入式类比:误差信号——告诉你当前输出离目标有多远
  • 常用:交叉熵(分类/生成)、均方误差(回归)
  • 关联:梯度下降、优化器

Gradient Descent(梯度下降)

  • 解释:沿损失函数梯度的反方向更新参数,使损失最小化
  • 嵌入式类比:PID控制中的积分项——累积误差来修正输出
  • 变体:SGD、Adam、AdamW
  • 关联:学习率、优化器

Learning Rate(学习率)

  • 解释:控制每次参数更新的步长
  • 嵌入式类比:步进电机的步距角——太大走过头,太小走太慢
  • 典型值:1e-5 ~ 1e-3
  • 调度:Warmup(前期增大)+ Decay(后期减小)
  • 关联:梯度下降、训练稳定性

Backpropagation(反向传播)

  • 解释:从输出层向输入层高效计算每个参数梯度的算法
  • 嵌入式类比:故障树分析——从最终故障现象逆向追溯每个环节的责任
  • 核心:链式法则在计算图上的应用
  • 关联:梯度下降、计算图

Inference(推理)

  • 解释:用训练好的模型对新数据做预测
  • 嵌入式类比:固件运行——用标定好的参数处理实时数据
  • 特点:自回归生成,每次生成一个token,重复n次
  • 优化:KV Cache、量化、批处理
  • 关联:训练、部署

四、优化与部署

KV Cache

  • 解释:推理时缓存已计算的Key/Value矩阵,避免重复计算
  • 嵌入式类比:DMA缓存——把常用数据放到快速内存中
  • 效果:生成速度提升2-5倍
  • 代价:额外的内存占用(与序列长度成正比)
  • 关联:推理优化、上下文窗口

Quantization(量化)

  • 解释:将FP32权重压缩为INT8/INT4,减少内存和计算量
  • 嵌入式类比:浮点转定点——牺牲精度换效率和功耗
  • 精度对比
    • FP16: 无损失,14GB(7B模型)
    • INT8: <1%损失,7GB
    • INT4: 1-3%损失,3.5GB
  • 关联:边缘部署、模型压缩

LoRA(Low-Rank Adaptation)

  • 解释:冻结原模型,只训练少量低秩矩阵来适配新任务
  • 嵌入式类比:打补丁——不改主代码,只加一个小的配置层
  • 参数量:全参数的0.01%-1%
  • 公式:W_new = W_frozen + A*B,其中r<<d
  • 关联:微调、参数高效

Temperature(温度)

  • 解释:控制生成文本的随机性,高温度更多样,低温度更确定
  • 嵌入式类比:PID参数中的比例系数——影响系统的响应激进程度
  • 典型值:0.1-0.3(事实)、0.5-0.7(对话)、0.8-1.0(创意)
  • 关联:采样策略

Hallucination(幻觉)

  • 解释:模型生成看似合理但不真实的内容
  • 原因:模型在预测下一个token的概率分布,而非检索事实
  • 缓解:RAG(检索增强)、提供参考资料、要求引用来源
  • 关联:概率模型、RAG

五、模型家族

GPT(Generative Pre-trained Transformer)

  • 架构:Decoder-only
  • 特点:因果注意力,从左到右生成
  • 代表:GPT-3、GPT-3.5、GPT-4、GPT-4o、o1
  • 适合:文本生成、对话、代码

BERT

  • 架构:Encoder-only
  • 特点:双向注意力,理解类任务强
  • 代表:BERT、RoBERTa、DeBERTa
  • 适合:文本分类、NER、问答(抽取式)

LLaMA

  • 架构:Decoder-only
  • 特点:开源,社区生态大,可私有部署
  • 代表:LLaMA 2、LLaMA 3、Llama 3.1
  • 适合:私有部署、微调、研究

国产模型

  • 通义千问(Qwen):阿里出品,中文能力强,开源友好
  • 文心一言(ERNIE):百度出品,知识图谱融合
  • GLM:智谱AI,中英双语,学术+商业
  • DeepSeek:深度求索,代码能力强,开源免费

六、概念关系图

Token ──(Tokenizer)──> Token ID ──(Embedding)──> 向量序列
                                                      |
                                                      v
                                               Positional Encoding
                                                      |
                                                      v
                                          +---------------------+
                                          |   Transformer      |
                                          |   Block x N        |
                                          |                    |
                                          | Self-Attention     |
                                          |   Q  K  V          |
                                          | Multi-Head         |
                                          |   |                |
                                          | Feed-Forward       |
                                          | Residual + LayerNorm|
                                          +---------------------+
                                                      |
                                                      v
                                               Linear Layer
                                                      |
                                                      v
                                             Softmax -> 概率分布
                                                      |
                                                      v
                                             Sample -> 下一个Token
                                                      |
                                                      v
                                              (循环直到结束)

评论功能需要配置 Giscus 环境变量

请访问 giscus.app 获取配置信息