✅派聪明 RAG知识库检索模块设计方案
知识库检索模块是派聪明这个 RAG 项目的核心功能模块,我们是基于 Elasticsearch 实现的文档混合检索能力,将语义检索和关键词检索结果结合起来,为用户提供更高质量的搜索体验。
该模块依赖于文件上传与解析模块完成的向量化处理,直接使用存储在 Elasticsearch 中的向量数据进行检索。系统目前使用豆包 API 生成文本向量,并将向量存储在 Elasticsearch 中。
模块整体分为两大块:
①、知识库检索
- 混合检索:结合语义检索和关键词检索结果,按权重排序返回搜索结果
- 支持指定返回结果数量:通过 topK 参数控制结果数量
②、权限控制
-
基于组织标签的数据权限:确保用户只能访问有权限的文档
-
支持层级权限验证:父标签权限自动包含所有子标签文档的访问权限
-
默认标签全局可访问:DEFAULT 标签资源对所有用户开放
用到的技术栈包括:
功能模块 | 技术选型 | 备注 |
---|---|---|
全文检索 | Elasticsearch | 第一阶段,使用IK分词器 |
向量检索 | Elasticsearch | 第一阶段,使用dense_vector类型 |
回复