本站 RAG 内容分为两条互补轨道:
理论全链路(11 篇)
覆盖离线预处理、在线检索与生成、进阶能力与评估落地,适合建立方法论与选型依据。请从下方目录按阶段阅读。
工程实战专题(8 篇)
企业级 RAG 数据管道实战专题 — 从 Docker 一键部署到 MySQL+Milvus+MinIO 三存储双写,每篇文末链接回上表中的理论文章,形成「工程 ↔ 理论」对照学习路径。
系列教程
从离线数据清洗到 RAG 落地与评估,共 11 篇理论与方法论
本站 RAG 内容分为两条互补轨道:
覆盖离线预处理、在线检索与生成、进阶能力与评估落地,适合建立方法论与选型依据。请从下方目录按阶段阅读。
企业级 RAG 数据管道实战专题 — 从 Docker 一键部署到 MySQL+Milvus+MinIO 三存储双写,每篇文末链接回上表中的理论文章,形成「工程 ↔ 理论」对照学习路径。
面向电商与企业知识库场景,讲解 RAG 离线多源数据清洗与去重:字段归一化、缺失值处理、SimHash/MinHash 近似去重与清洗流水线设计,附 Python 实战代码。
深入 RAG 离线预处理中的元数据增强与知识图谱融合:标准化元数据、spaCy 实体抽取、NetworkX 构图与 Node2Vec 图嵌入,提升复杂问答检索召回质量。
系统对比 BGE、OpenAI 等 Embedding 模型,讲解 MTEB 评测方法与 FlagEmbedding 领域微调流程,帮助你在 RAG 项目中选出更匹配业务的向量模型。
详解 HyDE 假设文档嵌入与查询扩展原理,通过 LLM 生成假想答案再检索,弥合用户口语查询与专业文档之间的语义鸿沟,含 Faiss 完整示例。
讲解 RAG 在线多路召回架构:BM25、向量检索与规则召回协同工作,并用 Reciprocal Rank Fusion 融合排序,解决单一检索路径偏科与漏召回问题。
介绍 Self-RAG 与自适应检索机制:按需决定是否检索、生成后自我反思与校验,减少无效召回与幻觉回答,在准确率与响应速度之间取得平衡。
多模态 RAG 实战教程:使用 CLIP 构建图文向量库、Faiss 图搜图检索,以及 PDF 图文统一索引方案,让 RAG 系统真正理解图表与扫描文档。
Agentic RAG 进阶指南:动态工具注册、ReAct 多步推理与迭代检索优化,使 RAG 系统能处理多跳复杂查询并协同调用搜索、计算等外部工具。
构建 RAG 全链路评估体系:用 Ragas 衡量上下文召回、答案忠实度与相关性,结合雷达图可视化与 GitHub Actions CI 集成,为上线提供量化验收标准。
RAG 生产环境落地指南:Docker Compose 服务编排、Langfuse 全链路追踪、OpenTelemetry 指标上报与异步日志,搭建可观测、可迭代的生产级 RAG 服务。