RAG

来自医学百科
77921020讨论 | 贡献2026年2月3日 (二) 07:38的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

RAG(Retrieval-Augmented Generation,检索增强生成)是一种将预训练大语言模型(LLM)与外部知识检索系统相结合的混合 AI 架构。它由 Meta AI 的 Patrick Lewis 等人于 2020 年正式提出。传统的 LLM(如 ChatGPT)像是一个“闭卷考试”的学生,依靠记忆(预训练权重)作答,容易产生幻觉 (Hallucination) 且无法获取最新信息;而 RAG 则赋予了模型“开卷考试”的能力——在回答问题前,先从外部知识库(如企业文档、互联网、医学指南)中检索相关信息,作为“参考资料”喂给模型,从而生成准确、可溯源且实时的回答。目前,RAG 已成为构建垂直领域 AI 应用(如法律、医疗助手)的主流范式。

RAG
Retrieval-Augmented Generation (点击展开)
核心:检索 + 生成
技术参数
提出时间 2020 年 (NeurIPS)
核心组件 向量数据库, LLM
解决痛点 幻觉, 知识过时
关键技术 Vector Embeddings (嵌入)
典型应用 Open Evidence, Bing Chat

工作原理:三步走战略

RAG 的运行流程可以形象地比喻为“先查资料,再写论文”。其标准流程包含三个核心阶段:

  1. 检索 (Retrieval): 当用户提问时,系统首先将问题转化为向量 (Vector),然后在外部知识库(向量数据库)中搜索语义最相似的文档片段。
  2. 增强 (Augmentation): 将检索到的“事实片段”与用户的原始问题拼接在一起,构建一个包含上下文的 Prompt(提示词)。
    ➤ 提示词示例:"基于以下参考资料:[资料A, 资料B...],请回答用户的问题:[用户提问]"
  3. 生成 (Generation): LLM 接收到这个增强后的提示词,像做阅读理解题一样生成答案,并注明引用来源。

技术路线之争:RAG vs. Fine-tuning

选型指南: 如果你需要模型学习一种“新的说话风格”或“特定任务格式”,用 Fine-tuning (微调);如果你需要模型掌握“海量的新知识”或“实时更新的事实”,必须用 RAG

维度 RAG (外挂知识库) Fine-tuning (微调模型)
知识更新 实时 (Real-time)
只需更新数据库,无需重训。
静态 (Static)
知识固化在权重中,更新需重训。
可解释性 高 (Verifiable)
可提供引用来源,便于核查。
低 (Black Box)
无法准确知道知识来自哪。
幻觉问题 大幅降低 依然存在
成本 较低 (架构搭建) 较高 (算力消耗)

生态系统:向量数据库的崛起

Vector Database (向量数据库)

RAG 的兴起直接带火了向量数据库赛道(如 Pinecone, Milvus, Chroma)。因为 RAG 的核心在于“检索”,而传统的关键词匹配(Keyword Match)无法理解语义,只有通过Embeddings (向量嵌入) 才能实现“意图理解”。

       学术参考文献 [Academic Review]
       

[1] Lewis P, et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS.
[点评]:RAG 的奠基之作。文章首次提出将参数化记忆(Generator)与非参数化记忆(Retriever)结合,刷新了多项 QA 任务的 SOTA。

[2] Gao Y, et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv preprint.
[点评]:全面综述了 RAG 的进化路线,包括 Naive RAG, Advanced RAG 和 Modular RAG 等变体。

[3] Kandpal N, et al. (2023). Large Language Models Struggle to Learn Long-Tail Knowledge. ICML.
[点评]:研究指出 LLM 很难记住长尾(罕见)知识,从理论上证明了外挂知识库(RAG)对专业领域的必要性。

           AI 架构 · 知识图谱
核心组件 Vector Database (向量库) • Embeddings (嵌入) • Prompt Engineering
竞争路线 Fine-tuning (微调) • Long Context Window (长上下文)
应用实例 Open Evidence (医疗) • Perplexity (搜索) • Chat with PDF