AI 数据治理驾驭指南
定位:给“驾驭马车的人”看的指南。
核心逻辑:AI 的能力上限取决于数据质量。不懂数据,就会被 AI 忽悠是“模型太笨”。
目标:一眼识别“脏数据”风险,建立高质量的知识喂养体系。
第一章:数据质量心法(懂草料的好坏)
1. 核心心法:Garbage In, Garbage Out
- 现象:模型回答不准确、幻觉多。
- 驾驭视角:80% 的 AI 问题出在数据,只有 20% 出在模型。
- 如何驾驭 AI:
- 当 AI 表现不好时,不要急着换大模型,先问:“训练数据(或知识库)干净吗?”
- 必须建立数据质量审计机制,像审查代码一样审查数据。
2. 验收清单(审查数据质量)
- 指令:“请分析当前知识库中,有多少内容是重复的、过时的、冲突的?”
- 指令:“这些数据中有多少是‘高质量专家经验’,有多少是‘互联网水贴’?”
- 判断标准:
- 信噪比:高质量数据的比例必须 > 70%,否则模型会学坏。
- 时效性:过期数据必须打标签或剔除,防止模型“穿越”。
3. 灵魂金句
"喂给模型的数据就像喂给马的草料。草料不干净,马跑得越快,肠胃坏得越快。"
第二章:RAG 知识工程(懂外挂脑的构建)
1. 核心心法:检索增强生成的本质是“开卷考试”
- 思想:RAG 的效果不取决于模型多聪明,取决于**“参考资料”给得对不对**。
- 驾驭视角:Chunking(分块)策略决定了检索的精度。
- 如何驾驭 AI:
- 当 AI 检索不到答案时,问:“分块策略是不是切断了语义关联?”
- 当 AI 检索到错误答案时,问:“检索重排(Re-ranking)为什么没过滤掉噪声?”
2. 验收清单(审查 RAG 方案)
- 指令:“这个分块策略(Chunk Size)是根据语义切分,还是暴力按字数切分?”
- 指令:“检索回来的 Top-5 文档中,有多少是真正相关的?请计算 MRR(平均倒数排名)。”
- 判断标准:
- 暴力切分:容易把一个知识点切断,导致模型读不懂上下文。
- 语义切分:按段落、标题、表格结构切分,保留知识完整性。
3. 灵魂金句
"RAG 系统的灵魂在于检索。模型只是最后的组装工,检索才是前面的采购员。采购员买错材料,组装工神仙难救。"
第三章:知识图谱与结构化(懂知识的脉络)
1. 核心心法:文本是平铺的,知识是立体的
- 思想:大模型擅长理解文本,但不擅长处理复杂关系(如 A 依赖 B,B 依赖 C)。
- 驾驭视角:知识图谱(Knowledge Graph) 是 RAG 的强力补充。
- 如何驾驭 AI:
- 对于复杂的设备依赖关系、故障排查树,不能只靠向量检索,必须引入图谱。
- 要求 AI 使用 GraphRAG 技术,先理清关系,再检索生成。
2. 验收清单(审查知识治理方案)
- 指令:“请提取这个技术文档中的实体关系(Entity-Relation),构建图谱 Schema。”
- 指令:“在回答多跳推理(Multi-hop Reasoning)问题时,纯向量检索和 GraphRAG 的准确率对比是多少?”
- 判断标准:
- 简单问答:向量检索够用。
- 复杂推理:必须上 GraphRAG(如微软的 LightRAG/GraphRAG)。
3. 灵魂金句
"向量检索看到的是‘相似度’,知识图谱看到的是‘逻辑链’。驾驭 AI 的最高境界是让两者协同。"
第四章:数据飞轮(懂自我进化的引擎)
1. 核心心法:数据不是一次性的,是流动的
- 思想:AI 系统上线后,用户的反馈就是新的“草料”。
- 驾驭视角:设计数据闭环(Data Flywheel),让系统越用越聪明。
- 如何驾驭 AI:
- 架构必须包含:用户反馈 -> 数据清洗 -> 模型微调/知识库更新 -> 效果评估 的自动化链路。
- 不要做“死”系统,要做“活”系统。
2. 验收清单(审查数据闭环)
- 指令:“如何自动收集用户的点踩(Thumbs Down)数据,并回流到训练集?”
- 指令:“知识库更新的频率是多少?是人工维护,还是 AI 辅助抽取?”
- 判断标准:
- 人工维护:不可持续,成本高。
- AI 辅助 + 人工审核:最佳平衡,效率与质量兼得。
3. 灵魂金句
"没有数据飞轮的 AI 系统是一次性玩具。有数据飞轮的 AI 系统才是资产。"