AI 架构核心思想·蒸馏
定位:架构师必读。剥离工具细节,保留 AI 系统的底层设计哲学。
目标:读透此文,掌握 AI 架构 80% 的核心决策逻辑。
一、核心心法(Mindset Shift)
1. 模糊组件原则
- 思想:大模型是概率组件
f(x) -> P(y|x),非确定性函数。输入固定,输出未必固定。 - 架构推论:容错设计 > 功能实现。必须在架构中设计安全网(护栏、验证、重试、人工介入)。
- 嵌入式类比:ADC 采样有噪声,架构上必须有数字滤波。大模型的输出就是带噪声的信号,架构就是滤波器。
- 原文金句:
"AI 系统的健壮性不取决于模型有多聪明,取决于架构有多少'安全网'。"
2. 数据即代码 (Data is Code)
- 思想:传统软件代码定义行为,AI 系统数据(Prompt/知识库/微调集)定义行为。
- 架构推论:必须建立数据版本控制。模型、Prompt、数据三者绑定才能回滚和复现。
- 嵌入式类比:校准参数表(Calibration Data)变了,设备行为就变了。Prompt 就是新的校准参数。
- 原文金句:
"微调给了模型'礼貌'——让模型学会遵循指令。预训练给了模型'知识'。"
3. 上下文即内存 (Context is RAM)
- 思想:Context Window 有限,且存在"Lost in the Middle"效应(中间信息易丢失)。
- 架构推论:按需加载。不能一次性塞入所有数据,必须设计检索(RAG)和压缩策略。
- 嵌入式类比:SRAM 有限,不能把所有 Flash 数据搬进去,要用 DMA 按需搬运。Context 就是 SRAM。
- 原文金句:
"上下文窗口不是越大越好。窗口越大,模型越容易分心。"
4. 评估即编译 (Eval is Compilation)
- 思想:写完 Prompt 不叫写完,跑过评估集才叫写完。
- 架构推论:架构必须内置自动化评估流水线。CI/CD 中必须加入 LLM Eval。
- 嵌入式类比:写完固件不叫发布,产线测试(EOL)全过才叫发布。评估就是产线测试。
- 原文金句:
"没有评估的 AI 系统是在'盲飞'。"
二、五大架构定律(不可违背)
- 模型易挥发定律:模型迭代极快(周级别)。架构必须模型无关,设计 Model Router,像 HAL 层一样隔离具体模型。
- 成本即性能定律:Token 消耗和 GPU 利用率是核心指标。分级路由(简单任务用小模型,复杂用大模型)是必修课。
- 延迟感知定律:首字延迟(TTFT)决定用户体验。流式输出和KV Cache是标配,不能等全部生成完再返回。
- 边缘卸载定律:不是所有智能都在云端。简单/高频/隐私任务下沉边缘(llama.cpp),复杂任务上云。
- 工具标准化定律:Agent 需要调用外部工具。MCP(Model Context Protocol) 是未来的 USB 标准,统一接口,解耦模型与数据源。
三、核心架构模式(Pattern)
1. RAG(检索增强生成)= 外挂知识库
- 本质:开卷考试。先查资料(Retrieval),再答题(Generation)。
- 适用:企业知识问答、私域数据查询、减少幻觉。
- 核心组件:Embedding(文本转向量)、Vector DB(存向量)、Retriever(找相似)。
2. Agent(智能体)= 赋予手脚
- 本质:不仅能说话,还能干活。思考 -> 行动 -> 观察 -> 思考。
- 适用:自动化运维、复杂任务拆解、跨系统操作。
- 核心组件:Planner(规划)、Tool Use(工具调用)、Memory(记忆)。
3. Fine-tuning(微调)= 技能培训
- 本质:在通用底座上教专业技能。
- 适用:特定领域风格(如医疗、法律)、特定任务格式。
- LoRA 定律:不改主权重,只加小补丁。LoRA = 插件式技能包。
四、架构师避坑指南(Anti-Patterns)
- 坑 1:把所有数据塞进 Prompt。
- 后果:上下文爆炸、费用高昂、效果下降。
- 正解:RAG 检索 + 摘要。
- 坑 2:相信模型不幻觉。
- 后果:生产事故、用户投诉。
- 正解:关键事实必须校验(RAG/代码执行/规则过滤)。
- 坑 3:忽略缓存。
- 后果:重复问题重复烧钱。
- 正解:语义缓存(Semantic Cache),相似度>95% 直接返回旧结果。
五、灵魂金句库(Golden Quotes)
关于模型
- "大模型不是魔法,是统计学的极致。"
- "幻觉不是 bug,是特征——因为它是概率模型。"
- "量变引起质变:参数够多、数据够大,涌现能力自然发生。"
关于工程
- "数据质量比模型架构更重要。好数据 + 简单模型 > 差数据 + 复杂模型。"
- "Prompt Engineering 的本质是:用模型能理解的语言,表达人类意图。"
- "预训练是'博闻强记',微调是'学以致用',对齐是'知书达理'。"
关于未来
- "世界上有两种人:AI 的开发者,和 AI 的权威使用者。"
- "AI 不会淘汰你,先掌握 AI 的人会。"