大家好,今天我们来一起学习下派聪明中非常核心的一个功能——混合检索。我会给大家一步步讲清楚,看懂派聪明是如何结合“关键词搜索”和“语义搜索”这两种技术实现 RAG 中关键的 Retrieval。

一、关键词搜索和语义搜索
在开始之前,我们需要搞清楚为什么不只用一种搜索技术,关键词搜索是什么,语义搜索又是什么。
关键词搜索需要将文档和查询都拆解成一个个独立的词语,然后通过匹配这些词语来计算相关性。依赖于一种名为“倒排索引”的数据结构,可以瞬间找到包含特定关键词的所有文档。

在没有搜索引擎前,我们搜内容是这样的,打开一个网址,获取网站的内容,然后输入关键词进行匹配:
document -> to -> words
通过文章,获取里面的关键词,这就是所谓的“正向索引”,英文名为 forward index。
后来,我们希望输入一个关键词,找到含有这个关键词的有关文章:
word -> to -> documents
我们把这种索引,称为 inverted index,直译过来叫反向索引,国内习惯翻译成“倒排索引”。
像技术派的首页,就用 ES 做过倒排的查询。

当用户的查询意图明确,用词精准时,关键词查询能提供精准、快速的结果。
于此同时,关键词搜索也有自己的局限性:刻板,缺乏深层的理解能力。无法理解同义词、近义词或上下文。例如,用户搜索“如何降低电脑温度”,它可能找不到一篇标题为“笔记本散热技巧”的优质文章,因为两者没有共同的关键词。
那什么是语义搜索呢?
语义搜索需要利用深度学习模型(Embedding Model),将文本的整体含义转换成一个高维空间中的数学向量。通过...
企业级Agent工作流编排项目PaiFlow
Vibe Coding版本的PaiAgent
派聪明RAG AI知识库Java版本+Go版本
微服务 PmHub、技术派、MYDB
求职派JobClaw(OpenClaw/Hermes架构
PaiCLI(类似Claude Code的Agent
派简历(代码已完成)
等实战项目。
1. 微信扫右侧的优惠券加入知识星球
2. 解锁星球的实战项目教程和源码: 项目源码+教程获取
热门评论
22 条评论
回复