2026-06-24 关键词重合召回

定义

一种不依赖向量 embedding 的文档相似度排序：从查询文本（或当前文档）提取关键词，在候选文档的标题 + 正文 + 摘要中统计关键词命中数，按命中数降序返回 top N。

与 RAG 与 Graph RAG 中的向量相似检索不同，这里是字面重合 + 轻量分词启发式，适合中小规模、低基础设施成本的场景。

关键词重合召回是「够用版相似度」：在 Agent 召回相关旧文、编辑器关联文档下拉等即时、轻量场景，复用同一套纯函数比单独上 embedding 更划算。语义缺口用文件名子串或后续 FTS5 / 向量层补齐。

若针对现有文档库过度调参（停用词、权重、截断行数），在新文档或新问法上召回变差，可类比过拟合——对当前语料过拟合、泛化不足。

维护：Cursor Agent，2026-06-24（补过拟合类比互链）。