✅派聪明 RAG 项目的ElasticSearch混合检索精讲

大家好，今天我们来一起学习下派聪明中非常核心的一个功能——混合检索。我会给大家一步步讲清楚，看懂派聪明是如何结合“关键词搜索”和“语义搜索”这两种技术实现 RAG 中关键的 Retrieval。

一、关键词搜索和语义搜索

在开始之前，我们需要搞清楚为什么不只用一种搜索技术，关键词搜索是什么，语义搜索又是什么。

关键词搜索需要将文档和查询都拆解成一个个独立的词语，然后通过匹配这些词语来计算相关性。依赖于一种名为“倒排索引”的数据结构，可以瞬间找到包含特定关键词的所有文档。

在没有搜索引擎前，我们搜内容是这样的，打开一个网址，获取网站的内容，然后输入关键词进行匹配：

document -> to -> words

通过文章，获取里面的关键词，这就是所谓的“正向索引”，英文名为 forward index。

后来，我们希望输入一个关键词，找到含有这个关键词的有关文章：

word -> to -> documents

我们把这种索引，称为 inverted index，直译过来叫反向索引，国内习惯翻译成“倒排索引”。

像技术派的首页，就用 ES 做过倒排的查询。

当用户的查询意图明确，用词精准时，关键词查询能提供精准、快速的结果。

于此同时，关键词搜索也有自己的局限性：刻板，缺乏深层的理解能力。无法理解同义词、近义词或上下文。例如，用户搜索“如何降低电脑温度”，它可能找不到一篇标题为“笔记本散热技巧”的优质文章，因为两者没有共同的关键词。

那什么是语义搜索呢？

语义搜索需要利用深度学习模型（Embedding Model），将文本的整体含义转换成一个高维空间中的数学向量。通过计算向量之间的距离（如余弦相似度），来判断文本在语义层面的相似性。

也就是说，语义搜索由向量搜索提供支持，具备极高的智能化水平。能够跨越文字的障碍，理解深层语义。对于上一个例子，语义搜索能准确判断“降低电脑温度”和“笔记本散热技巧”在语义上具有高度的一致性。

当然了，语义搜索的结果有时不够聚焦。它可能返回一篇语义高度相关、但恰恰缺少了用户最关心的某个核心关键词的文档，导致结果“看似相关，实则无用”。

派聪明的目标是成为一个专业的智能知识库问答系统。它既需要能理解用户模糊、口语化的自然语言查询，又必须保证返回结果的专业性和准确性，确保关...

33人已点赞

26 条评论

iuk 2026年06月27日 14:58

引用原文：目前的打分规则是：最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)

@派聪明这样设置分数权重有什么优点，使用这个加权融合方式相对于RRF有什么优缺点

回复1 取消回复

派聪明 2026年06月27日 14:58

从你选中的这段文字可以看出，派聪明的混合检索采用了**线性加权融合**（即 `Score = α·S_keyword + β·S_vector`）策略。这里的权重设置（关键词1.0 : 向量0.2）有以下几个核心优点和与RRF的对比： --- ### ✅ 这种权重设置的优点 1. **强调精准性**：关键词分权重（1.0）远大于向量分权重（0.2），说明系统**优先保证结果的关键词匹配度**。这非常适合知识库场景——用户问“如何提升训练效率”，返回的结果必须包含这些核心词，避免看似相关但实际跑偏的情况。 2. **语义辅助排序**：向量分虽然权重低，但起到了“**破平局**”的作用。当多篇文档关键词匹配度相近时，语义上更贴近用户意图的文档会获得额外加分，排在更前面。 3. **可解释性强**：线性加权的分数含义直观，便于调试和调整。如果发现召回不足，可以调高 β；如果发现结果发散，可以调高 α。 --- ### ⚖️ 与RRF的对比 RRF（Reciprocal Rank Fusion，倒数排序融合）是另一种主流融合方式，公式为：`Score = 1/(k + rank_keyword) + 1/(k + rank_vector)`，它只看**排名**，不看**原始分数**。 | 对比维度 | 线性加权融合（当前方案） | RRF | |---------|----------------------|-----| | **分数利用** | 利用原始分数（如BM25分值、余弦相似度），信息更丰富 | 只看排名，丢弃了原始分数中的置信度信息 | | **调参难度** | 需要调α、β两个权重，需要基于业务数据反复试验 | 参数少（只需调k值），更鲁棒 | | **对分数量纲的敏感度** | ❌ 依赖两个分数处于相近量纲。如果关键词分和向量分差距过大，需要归一化处理 | ✅ 不依赖分数量纲，天然适合融合异构分数 | | **极端场景表现** | 如果某篇文档向量分极高但关键词分为0，加权后可能仍拿不到高分（适合需要关键词的应用） | 只要文档在某一侧排名靠前，就能获得较高fusion分 | --- ### 📌 总结当前方案的**核心定位**是：**关键词优先，语义辅助排序**。这套权重设置非常适合**专业知识库问答**场景——要求结果既语义相关、又必须命中关键术语。相比RRF，它更能保证结果的**精准聚焦**；但缺点是需要精心调参，且两个分数需要归一化到相近量纲，否则大值域的分量会主导结果。

开普勒的小星星 2026年04月30日 09:04

引用原文：最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)

@派聪明设定这样的打分规则的依据是什么？

kksk 2026年04月23日 15:42

引用原文：Retrieval

检索

Crush 2026年04月10日 20:08

引用原文：第一步，用户输入查询后，派聪明会调用豆包的 embedding 模型，将其转换成一个 2048 维的“查询向量”。这个向量代表了用户查询的核心语义意图。第二步，用这个向量去和 ES 中所有文档的向量做对比，找出意思最相近的一大批内容（比如 300 篇）。这是纯粹的向量搜索阶段。派聪明会在 knowledge_base 索引上执行 knn 查询，操作对象是 vector 字段。它会将用户的“查询向量”与索引中所有文档的向量进行余弦相似度计算。此阶段的目标是快速、大规模地找出所有在语义上与查询意图相关的文档，形成一个庞大的候选池。一篇关于“加速模型收敛”的文章，会在此阶段被成功召回。

@派聪明 knn查询的时候没有经过权限过滤啊

Tumbleweed 2026年03月28日 10:49

@派聪明最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)。这个系统关键词匹配分、向量语义分一般是多少，为什么不用RRF？

派聪明 2026年03月28日 10:50

根据参考资料，混合检索的最终分数计算公式为： **最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)** ### 分数范围与实际意义 1. **关键词匹配分（BM25分）** - **范围**：理论值无上限（受词频、文档长度影响），实际应用中通常在 **0~30** 区间（高相关文档可达15+）。 - **作用**：通过BM25算法计算关键词匹配度，词频越高、关键词越核心，分数越高。 2. **向量语义分（余弦相似度）** - **范围**：**0~1**（1表示语义完全一致）。 - **作用**：通过Embedding模型计算查询向量与文档向量的余弦相似度，反映语义相关性。 ### 为什么不用RRF（Reciprocal Rank Fusion）？ RRF是另一种融合多路结果的方法，公式为： `Score(d) = Σ (1 / (k + rank_i(d)))`（`k`为常数，`rank_i(d)`为文档在第`i`路结果中的排名） **选择加权分数而非RRF的原因**： 1. **深度耦合需求**： - 混合检索需在**同一索引**中同时执行向量搜索（召回）和关键词搜索（精排），而RRF适用于**独立多路结果**的融合（如不同搜索引擎结果）。 - ES的混合搜索通过`rescore`操作在候选集内直接重排序，加权分数更高效。 2. **可控性与灵活性**： - 加权分数可动态调整权重（如关键词权重1.0、语义权重0.2），适应不同场景需求；RRF的权重固定（如`k=60`），难以灵活优化。 3. **精度要求**： - 专业知识库需**精准过滤**（如剔除伪相关文档），关键词过滤（`must match`）是硬性门槛，RRF仅依赖排名无法实现严格筛选。 ### 总结 - **分数值**：关键词分（BM25）无固定范围，语义分（余弦）在0~1之间。 - **权重设计**：关键词权重更高（1.0），确保核心信息不丢失；语义权重（0.2）作为补充，提升召回覆盖。 - **未用RRF**：因混合检索需在同一流程中深度融合两种搜索，加权分数更灵活且适配ES的`rescore`机制。

派聪明 2026年03月28日 10:51

根据系统设计，混合检索的分数范围和权重设置如下： ### 1. **分数范围** - **关键词匹配分（BM25分）**：无固定上限，通常在 **0-30** 之间（具体取决于文档长度、词频、字段重要性等）。例如，高频匹配核心关键词的文档可能得分15+，低频匹配则接近0。 - **向量语义分（余弦相似度）**：理论范围 **[-1, 1]**，但实际应用中因文本相似性较高，多集中在 **[0.5, 1.0]**。例如，语义完全匹配接近1.0，部分相关可能在0.7左右。 ### 2. **权重设计（1.0 vs 0.2）的原因** - **关键词主导逻辑**：系统优先保证结果的专业性和准确性（如必须包含“训练”“效率”等核心词），因此赋予关键词分更高权重（1.0）。避免语义相关但缺乏关键信息的“跑偏”结果。 - **语义辅助作用**：向量分作为补充（权重0.2），在关键词匹配度相近时，优先选择语义更贴近的文档（如“提升效率” vs “加速收敛”）。 ### 3. **为何不用RRF（Reciprocal Rank Fusion）？** - **RRF的局限性**： RRF（如 `1 / (rank + k)`）仅依赖排序位置，忽略分数绝对值，无法直接控制关键词与语义的**权重比例**。而线性加权（`1.0×BM25 + 0.2×向量分`）能精准实现1:5的权重平衡。 - **系统需求差异**：当前设计需**严格过滤伪相关结果**（如通过关键词淘汰语义相关但无核心词的文档），RRF的排名融合机制难以实现这一过滤逻辑。线性加权结合`must match`关键词条件，确保结果聚焦。 - **效率与可控性**： RRF需多次查询并合并排名，而线性加权在单次ES查询中通过`rescore`完成，效率更高，且权重调整更直观。 ### 总结系统通过**线性加权**实现“关键词精准为主、语义理解为辅”的平衡，而RRF更适合无需严格权重控制的场景。当前设计确保了结果的专业性（关键词过滤）与灵活性（语义补充），符合企业级知识库的高精度需求。

根据混合检索系统的设计，关键词匹配分（BM25分数）和向量语义分（余弦相似度）的取值范围和计算逻辑如下： --- ### **1. 分数范围与计算逻辑** | **分数类型** | **取值范围** | **计算方式** | **实际意义** | |--------------------|-------------------|---------------------------------------|----------------------------------| | **关键词匹配分** | 理论无上限（通常0-50） | 基于词频、文档长度等计算的BM25分数 | 反映关键词匹配的精确度（越高越相关） | | **向量语义分** | 固定范围 [0, 1] | 余弦相似度（向量夹角余弦值） | 反映语义相似度（1为完全相关） | **示例**： - 用户查询“如何提升AI模型训练效率”时： - 一篇包含“训练”“效率”等关键词的文档 → BM25分可能为 **40**，语义分可能为 **0.85**。 - 一篇语义相关但缺少核心词的文档 → BM25分可能为 **5**，语义分可能为 **0.9**。 --- ### **2. 为什么不用RRF（Reciprocal Rank Fusion）？** RRF（倒数排名融合）是一种常用的多路检索结果融合方法，但该系统选择加权求和的原因如下： #### **RRF的局限性** - **依赖排名而非绝对分数**： RRF仅利用各检索器的排名位置（如`1/(rank + k)`），忽略分数本身的绝对值差异。例如： - 向量搜索第1名（语义分0.9）和关键词搜索第1名（BM25分50）在RRF中被同等对待，但实际相关性差异巨大。 - **对召回量级敏感**：若向量搜索召回300条，关键词搜索召回50条，RRF需调整参数平衡两者，但效果不稳定。 #### **加权求和的优势** - **直接量化相关性**：通过固定权重（如关键词分权重1.0，语义分权重0.2）综合绝对分数，更符合业务需求（强调关键词匹配）。 - **可控且可解释**：权重可动态调整（如医疗领域提高语义权重，法律文档提高关键词权重），且结果易于调试。 - **工程落地更稳定**：避免RRF对参数的敏感性，尤其当各检索器分数分布差异大时（如BM25分远高于语义分）。 --- ### **3. 加权规则的实际效果** **最终分数 = (关键词匹配分 × 1.0) + (向量语义分 × 0.2)** - **关键词主导**：权重1.0确保结果聚焦核心词（如“训练”“效率”），避免语义相关但内容跑偏。 - **语义辅助**：权重0.2为语义相似文档提供“加分项”，当关键词匹配度接近时，语义更优者胜出。 **示例对比**： | 文档 | BM25分 | 语义分 | 最终分 | 排名 | |------|--------|--------|--------|------| | A | 40 | 0.85 | **40.17** | 1 | | B | 35 | 0.95 | **35.19** | 2 | | C | 10 | 0.90 | **10.18** | 3 | > **结论**：系统通过加权求和平衡了关键词的“精准性”和语义的“泛化性”，同时避免RRF对排名位置的过度依赖，更适合企业级RAG场景。

Byte 2026年03月25日 17:00

引用原文：模地找出所有在语义上与查询意图相关的

BM25介绍一下@派聪明

派聪明 2026年03月25日 17:01

根据参考资料，**BM25** 是一种用于关键词搜索的**相关性评分算法**，在派聪明的混合检索流程中扮演核心角色。以下是关键说明： --- ### **1. BM25的核心作用** - **定位**：在混合检索的第三步（关键词精排阶段），用于对候选文档进行**重排序**（Rescore）。 - **目标**：量化文档内容与用户查询关键词的匹配程度，计算精确的**关键词相关性分数**（`rescore_score`）。 --- ### **2. BM25的评分原理** BM25 通过以下因素综合评估相关性： - **词频（TF）**：关键词在文档中出现的次数（次数越高，相关性越强）。 - **文档长度**：过长的文档中关键词的“稀释效应”会降低权重。 - **关键词逆文档频率（IDF）**：关键词在所有文档中的稀有程度（稀有词的权重更高）。 - **参数调节**：通过参数 `k1`（控制词饱和度）和 `b`（控制文档长度影响）优化结果。 > 📌 **参考资料原文**： > *“派聪明会对通过过滤的文档列表，执行 rescore 操作。其内部使用的是 **BM25 算法**，综合评估每个文档中关键词的质量（词频、重要性、文档长度等），并计算出一个精确的**关键词相关性分数**。”* --- ### **3. 在派聪明中的具体应用** - **场景**：用户查询“如何提升AI模型的训练效率？”后，系统先用语义搜索召回300篇候选文档。 - **BM25的任务**： 1. **过滤**：淘汰不包含“训练”“效率”等核心关键词的文档（如仅含“加速模型收敛”的文章）。 2. **排序**：对剩余文档计算BM25分数，按匹配度降序排列。 - **权重融合**：最终得分 = **BM25关键词分（权重1.0）** + **语义向量分（权重0.2）** （确保关键词匹配优先级更高，同时保留语义相关性） --- ### **4. 与语义搜索的协同** - **互补性**： - **语义搜索**（向量匹配）解决“同义理解”（如“降温”≈“散热”），但可能返回无关文档。 - **BM25** 确保结果包含用户明确提及的核心词，提升答案的**精准性**和**专业性**。 - **混合价值**：通过“语义召回→关键词精排→分数融合”，实现“既智能又精准”的检索效果。 --- ### **总结** BM25 是派聪明混合检索的“关键词裁判”，通过科学量化文本匹配度，过滤噪音并优化排序，与语义搜索共同保障结果的相关性与可靠性。

嘿嗨 2026年03月18日 17:25

引用原文：将其转换成一个 2048 维的“查询向量”

@派聪明, 为什么是转换为2048维, 而不是其他维, 比如512维呢

派聪明 2026年03月18日 17:26

根据参考资料中的技术实现细节，选择**2048维向量**主要基于以下原因： 1. **Embedding模型的默认输出维度** 系统使用的豆包（或其他）Embedding模型将文本转换为向量时，其**标准输出维度为2048**。这是模型训练时预设的语义空间维度，能最大化保留文本的语义信息（参考资料中明确提到 `dims: 2048`）。 2. **语义完整性的平衡** - 2048维相比低维度（如512维）能更精细地表达文本的语义复杂度，尤其适合专业领域知识库的语义理解需求。 - 高维度虽增加计算成本，但通过ElasticSearch的优化（如余弦相似度计算）可高效处理，确保性能（参考资料强调"高性能企业级RAG"）。 3. **ElasticSearch的兼容性** ES的 `dense_vector` 字段支持自定义维度，2048是经过验证的稳定配置，能同时兼顾语义精度与检索效率（参考资料中ES索引结构直接定义 `dims: 2048`）。 4. **避免信息损失** 低维度（如512维）在压缩语义时可能丢失关键信息，导致语义搜索准确性下降。2048维在语义完整性和资源消耗间取得了平衡（参考资料提到需"理解深层语义"）。 > 💡 **总结**：2048维是Embedding模型的标准输出，既保证语义理解的深度，又通过ES优化实现高效检索，是系统在"智能性"与"性能"间权衡的结果。

✅派聪明 RAG 项目的ElasticSearch混合检索精讲

一、关键词搜索和语义搜索

热门评论

26 条评论

目录

划线评论