GraphRAG

来自医学百科

GraphRAG(Graph Retrieval-Augmented Generation,图谱增强检索生成)是一种结合了知识图谱(Knowledge Graph)结构化优势与大语言模型(LLM)生成能力的下一代 RAG 技术。传统的 RAG(Naive RAG)依赖于向量相似度检索,这在处理简单的“事实查询”时有效,但在面对需要多跳推理(Multi-hop Reasoning)或这就需要理解数据间复杂关系的医学问题时往往失效。GraphRAG 通过将文本转化为图谱结构,利用图的遍历能力检索出“实体”及其“关系”,从而让 AI 具备了逻辑推理能力和全局视角,极大地降低了医疗 AI 的幻觉风险。

GraphRAG
(点击展开)
结构化知识驱动的生成
核心组件 KG (知识图谱) + LLM
检索方式 图遍历 (Graph Traversal)
主要优势 多跳推理, 全局概括
关键技术 社区发现 (Leiden算法)
首发机构 Microsoft Research
核心标签 可解释性, 逻辑推理

技术背景:为什么医学需要 GraphRAG?

在医学领域,单纯的 Vector RAG(向量检索)存在致命缺陷:它只能检索到“字面相似”的片段,而无法理解“逻辑关联”。
场景示例: 用户问“除了二甲双胍,还有哪些药能治疗2型糖尿病但不会导致低血糖?”
Vector RAG: 可能会检索到含有“二甲双胍”和“低血糖”关键词的文档片段,然后拼凑出一个可能包含错误的答案。
GraphRAG: 会在知识图谱中先找到[二甲双胍]节点,沿[治疗]边找到[2型糖尿病],再查找该疾病的其他[治疗药物]节点,并过滤掉[副作用]包含[低血糖]的药物。这是基于逻辑的精确检索。

   文件:GraphRAG Workflow Diagram

核心机制:Indexing & Querying

1. Indexing (图谱构建与索引)

GraphRAG 首先利用 LLM 从非结构化文本(如医学指南、百科)中自动提取实体(Entities)和关系(Relationships),构建知识图谱。
特色技术: 微软提出的 GraphRAG 方法引入了社区发现(Community Detection)。它将紧密相关的节点(如所有关于“肺癌化疗”的节点)聚类成一个社区,并预先生成该社区的摘要。这使得 AI 能够回答“肺癌化疗有哪些常见方案?”这种宏观问题。

2. Querying (图谱增强检索)

当用户提问时,系统不仅进行关键词匹配,还在图谱上进行多跳游走(Multi-hop Traversal)。
例如:查询“Drug A 对 Gene B 突变患者的风险”,系统会沿路径检索:Drug A -> Target C -> Pathway D -> Gene B。它将这条完整的“证据链”作为上下文喂给 LLM,从而生成有理有据的回答。

横向测评:Vector RAG vs GraphRAG

GraphRAG 是对 Vector RAG 的降维打击,特别是在复杂专业领域。

维度 Vector RAG (传统) GraphRAG (进阶)
数据表示 切片文本块 (Chunks) 的向量。数据是碎片的。 结构化的实体与关系 (Knowledge Graph)。数据是关联的。
推理能力 弱。 仅靠语义相似度,难以处理跨文档的逻辑连接。 强。 支持多跳推理,能发现隐性关系(A->B->C)。
全局理解 差。 难以回答“总结全部文档中提到的副作用”这类全集问题。 优。 利用图谱社区摘要,擅长回答宏观概括性问题。
构建成本 低。只需 Embedding 模型。 高。需要构建高质量图谱,涉及 NER 和关系抽取。
       关键参考文献
       

[1] Edge D, et al. (2024). From Local to Global: A Graph RAG Approach to Query-Focused Summarization. Microsoft Research.
[奠基之作]:微软团队正式提出了 GraphRAG 的概念,证明了其在处理大规模数据集的全局性问题(Global Sensemaking)上显著优于传统 RAG。

[2] Pan S, et al. (2023). Unifying Large Language Models and Knowledge Graphs: A Roadmap. IEEE TKDE.
[综述]:系统阐述了 LLM 与 KG 结合的三种模式:KG 增强 LLM(即 GraphRAG)、LLM 增强 KG(用 AI 建图)以及协同进化。

           GraphRAG · 知识图谱
上级技术 RAG (检索增强生成) • 知识图谱
应用场景 临床决策支持 (CDSS) • 复杂病例分析药物研发
技术难点 实体对齐知识更新检索延迟
工具栈 Neo4jLangChainLlamaIndex