✅派聪明 RAG知识库检索模块设计方案

知识库检索模块是派聪明这个 RAG 项目的核心功能模块，我们是基于 Elasticsearch 实现的文档混合检索能力，将语义检索和关键词检索结果结合起来，为用户提供更高质量的搜索体验。

该模块依赖于文件上传与解析模块完成的向量化处理，直接使用存储在 Elasticsearch 中的向量数据进行检索。系统目前使用豆包 API 生成文本向量，并将向量存储在 Elasticsearch 中。

模块整体分为两大块：

①、知识库检索

混合检索：结合语义检索和关键词检索结果，按权重排序返回搜索结果
支持指定返回结果数量：通过 topK 参数控制结果数量

②、权限控制

基于组织标签的数据权限：确保用户只能访问有权限的文档
支持层级权限验证：父标签权限自动包含所有子标签文档的访问权限
默认标签全局可访问：DEFAULT 标签资源对所有用户kaifang

用到的技术栈包括：

功能模块	技术选型	备注
全文检索	Elasticsearch	第一阶段，使用IK分词器
向量检索	Elasticsearch	第一阶段，使用dense_vector类型
向量检索	FAISS	第二阶段，提供更高性能的向量检索
缓存	Redis	缓存热点查询结果
数据库	MySQL	存储元数据
对象存储	MinIO	存储文档文件

整体的流程是这样的：

当用户发起一个查询请求时，...

31 条评论

画船听雨眠 2026年05月13日 14:41

引用原文：①、知识库检索混合检索：结合语义检索和关键词检索结果，按权重排序返回搜索结果支持指定返回结果数量：通过 topK 参数控制结果数量

@派聪明这里的topK是什么参数，有什么作用

喧哗沉主 2026年04月24日 10:25

引用原文：脚本打分机制

@派聪明这是什么意思？

啊哈 2026年04月16日 17:18

引用原文：text_content

在哪里把数据存入到elasticsearch中的我咋没找到

Joker 2026年04月12日 23:17

@派聪明在派聪明中，知识库检索的页面是在哪里，是作为子流程融合到聊天助手里面了吗

东东 2026年04月07日 14:28

引用原文：通过设置内部权重，我们可以灵活地调节两种检索方式对最终结果的影响，实现更加精准和个性化的排序。

@派聪明 KNN 向量相似度分数和BM25 关键词匹配分数这两个分数的量纲完全不同，KNN 分数固定范围 0 ~ 1，BM25 分数：无固定上界，那是怎么根据这个公式计算权重的呢，是不是有问题？`final_score = 0.2 × KNN分数 + 1.0 × BM25分数`

东东 2026年04月07日 14:19

引用原文：系统还实现了混合检索，也就是说：在一次查询请求中，既能进行关键词匹配（全文检索），又能做语义相似度计算（向量检索）。

@派聪明源码中，构建 ES 查询时 `must` 关键词把 BM25 变成了 KNN 的门卫，难道不应该 KNN 和 BM25 是平等的两路检索，各自独立找候选，然后融合吗？为什么不采用RRF的融合策略呢

Coos 2026年04月01日 17:36

引用原文： IK 分词器

@派聪明具体什么时候用的，在哪用的，怎么用的

派聪明 2026年04月01日 17:37

根据参考资料，**IK分词器**在派聪明项目中的使用场景和方式如下： ### 1. **使用时机** - 在 **Elasticsearch 的全文检索阶段**（第一阶段）使用，用于处理中文内容的分词和索引。 ### 2. **使用位置** - 应用于 **文档的 `text_content` 字段**（存储原始文本内容），通过 Elasticsearch 的索引机制实现中文分词。 ### 3. **具体作用** - **中文分词**：将连续的中文文本切分为独立的词语（例如，将“人工智能技术”拆分为“人工智能”和“技术”），提升关键词检索的准确性。 - **支持全文检索**：结合 Elasticsearch 的全文搜索能力，实现类似百度的高效文本匹配（如用户输入“沙雕”能匹配到“沉默王二是沙雕”）。 ### 4. **技术实现** - 在 Elasticsearch 中配置 IK 分词器（需提前安装插件），对 `text_content` 字段建立索引时自动启用分词。 - 用户发起关键词搜索时，Elasticsearch 对查询文本分词后，与索引中的分词结果进行匹配，返回相关文档片段。 ### 总结 IK 分词器是派聪明系统**全文检索模块的核心组件**，专门解决中文分词问题，确保用户通过关键词能精准检索到文档内容。当前仅用于 Elasticsearch 的全文检索功能，后续若引入 FAISS，该分词逻辑仍由 Elasticsearch 负责。

Coos 2026年03月31日 22:01

引用原文：配合 IK 分词器

@派聪明每个文档分块是500左右字符，那么使用IK分词器的作用是什么呢

派聪明 2026年03月31日 22:04

在500字符左右的文档分块中，**IK分词器**的核心作用是提升中文文本的检索精准度，具体体现在以下方面： --- ### **1. 解决中文分词问题** - **中文无天然分隔符**：英文单词间有空格，但中文需智能切分（如“沉默王二是沙雕”需切分为“沉默/王二/是/沙雕”）。 - **避免错误匹配**：未分词时，“王二”会被当作完整字符串，用户搜“王二”可能无法命中包含“沉默王二”的文档。 --- ### **2. 提高关键词检索覆盖率** - **多粒度切分**：IK支持细粒度（如“沙雕”）和粗粒度（如“沉默王二”）分词，覆盖用户不同搜索习惯。 - **同义词扩展**：内置同义词词典（如“程序员”可匹配“码农”），减少漏检。 --- ### **3. 优化混合检索效果** - **与向量检索协同**： - **关键词检索**：通过IK分词精准匹配用户输入的明确关键词（如“技术文档”）。 - **语义检索**：结合向量模型（如豆包API）理解用户意图（如搜“如何写代码”匹配“编程指南”）。 - **结果融合**：按权重排序综合两种检索结果，提升相关性（如用户搜“王二”，优先返回含“沉默王二”的文档）。 --- ### **4. 适应500字符分块的特性** - **语义完整性**：500字符左右可保证一个完整语义单元（如一段话），分词后仍保持上下文连贯性。 - **避免碎片化**：若分块过小（如50字符），分词后关键词稀疏，影响检索效果；过大（如2000字符）则噪声增多，IK分词能平衡二者。 --- ### **总结** 在500字符分块场景中，**IK分词器**是中文全文检索的“基石”，它： ✅ **精准切分文本** → 解决中文检索痛点 ✅ **扩展匹配维度** → 覆盖同义词、多粒度查询 ✅ **支撑混合检索** → 与向量检索协同提升结果质量最终实现用户输入“沉默王二是沙雕”时，系统既能精准匹配关键词，又能通过语义理解返回相关内容，大幅提升检索体验。

一代天骄 2026年03月26日 11:29

@派聪明这里的MySQL表里只存了生成向量的模型版本并没有存生成的文本向量啊具体词向量是只在es里存储吗并且 mysql为什么不会只存文件md5和对应的分片内容而是把文本内容也完整存了一遍这个有什么用处吗检索不是在es里吗

派聪明 2026年03月26日 11:30

MySQL中的document_vectors表确实不存储向量数据，向量数据仅存储在Elasticsearch中。MySQL表中的text_content字段存储完整文本内容的主要用途包括：1)作为数据备份和冗余，确保即使ES出现问题也能恢复原始数据；2)检索后可直接从MySQL获取完整文本，减轻ES负载；3)保证文本与向量数据的一致性；4)支持版本管理和历史数据回溯。这种设计虽然增加了存储空间，但提高了系统的可靠性和性能。

Twistzz 2026年03月20日 21:47

这是什么

亚泽 2026年04月09日 09:20

Elasticsearch生态中的分词器，把中文的一句话按照语义拆分成词组

热门评论

31 条评论

目录

划线评论