RAG vs Graph RAG
引言
最近因为工作的关系,经常接触到 agent、知识库、RAG 等相关词汇,每次遇到一个新词汇都会去查,了解相关的知识,不过很久没做笔记了。AI时代,越发的膨胀,觉得 AI 无所不能,像笔记这种可以在聊天工具建个笔记本,聊完还能给 AI 长脑子。
说到长脑子,大家有没有想过:AI 是怎么长脑子的?我们跟 AI 对话时,他是怎么去检索信息的?
在没有 AI 聊天工具或者说没有 AI 检索之前,我们一般会用百度、必应或者谷歌等搜索引擎去做信息检索,通过权重、关键词、筛选项以及特定的搜索公式等去获取到我们想要的信息,其实本质还是在做筛选。这里讲的是普遍的信息检索,专业领域的信息检索,比如说特定的知识库检索,用的策略也是一样的。
现在呢?或者说 AI 时代的信息检索是怎么样的呢?现在很多知识库或者搜索引擎都加入了 AI 的能力,以期更精确的搜索到我们想到的内容,或者说更符合我们语义环境的内容。我们的输入不再那么机械化,可以用自然语言去做检索,这在很大程度上降低了信息检索的门槛。那么这背后做了什么呢?
传统 RAG
比如我们输入一句:canace blog china,谷歌搜索的第一条 AI 概览可能会直接返回我的博客摘要,这里是怎么做到这么精准的呢?这就不得不提到 RAG 了,他的工作原理是这样的:
- 切块 (Chunking):把所有的文档(PDF、Word)等资料切成一个个比如 500 字的小文本块。
- 向量化 (Embedding):把这些文本块转换成一串数字(向量)。
- 检索 (Retrieval):当我们提问时,系统把这些问题也变成向量,然后去数据库里找出最像的几块文本,丢给大模型去总结回答。
由此可见,在传统的内容匹配之外,搜索引擎背后的知识库做了内容向量化的工作,在我们提问的时候,通过相似度检索,返回更精确的信息给我们。
这种策略在通用的知识库检索是没什么问题的,如果用在一些专业的知识库,比如前段时间很火的史记知识库等需要关系检索的知识库,RAG 是有点缺陷的:
- 只见树木,不见森林:如果我们问“这份报告里提到的三大核心风险是什么?”,传统 RAG 只能召回包含“风险”字眼的几页纸,如果风险分散在 10 个不同的章节,它就无法给出全局的宏观总结。
- 无法连点成线:如果文档 A 写了“张三是 A 公司的法人”,文档 B 写了“A 公司全资控股 B 公司”。当你问“张三和 B 公司有什么关系?”时,传统 RAG 很难把这两块不在一起的文本拼接起来思考。
Graph RAG
Graph RAG 是由微软等公司力推的新一代 RAG 技术。它不再把文档看作孤立的文本块,而是看作一张错综复杂的网,他是这么工作的:
- 实体与关系抽取:利用 LLM(大模型) 阅读文本,把里面的“人、事、物”(实体)以及它们之间的“属于、喜欢、导致”(关系)全部提炼出来。
- 构建图谱 (Graph Construction):将这些实体和关系连接成一个巨大的知识图谱。
- 社区聚类 (Community Detection):这是 Graph RAG 的灵魂。它用算法自动把关系紧密的实体划分为不同的“社区(Communities)”,并提前让大模型对每个社区生成“全局摘要”。
- 检索与生成:提问时,它不仅检索具体的实体,还能直接调用这些“社区摘要”,从而回答关系等宏观问题。
相比于传统的 RAG,Graph RAG 非常擅长回答“这本小说讲了什么故事?”、“这批用户反馈里最核心的三个抱怨点是什么?”等宏观、摘要型的问题。能够轻松顺着图谱的线条找到隐藏在不同文档深处的关联(如:通过 A $\rightarrow$ B $\rightarrow$ C 推导出 A 与 C 的潜在联系)。对于上面谈到的“张三和 B 公司有什么关系”这个问题,就可以很轻易的回答出来。
但是成本差异是很明显的,传统 RAG 只需要对内容做向量化,有个向量数据库基本就能实现精准搜索了。如果用 Graph RAG 的话,还得用 LLM 去整理实体、关系等资料才能构建知识图谱,然后还要去做聚类,这里面的 LLM 调用成本或者说算力成本是一笔巨额开销,除此之外还需要人力去对数据做审核,校验生成的实体关系等准确性等,除了向量数据库的开销还加了个图数据库,比如 Neo4j,社区版是阉割的,支持的图谱层级有限,还得买商业版。
具体选哪个,可以根据知识库的类型和成本做选择,如果是简单的结构化信息,用 RAG 足以,如果还需要复杂的关系检索,有深度推理的需求,可以在用传统 RAG 的基础上辅以 Graph RAG。
本文标题:RAG vs Graph RAG
文章作者:Canace
发布时间:2026-06-03
最后更新:2026-06-03
原始链接:https://canace.site/rag-vs-graph-rag/
版权声明:转载请注明出处
分享