✅派聪明 RAG 项目的ElasticSearch混合检索精讲
大家好,今天我们来一起学习下派聪明中非常核心的一个功能——混合检索。我会给大家一步步讲清楚,看懂派聪明是如何结合“关键词搜索”和“语义搜索”这两种技术实现 RAG 中关键的 Retrieval。
一、关键词搜索和语义搜索
在开始之前,我们需要搞清楚为什么不只用一种搜索技术,关键词搜索是什么,语义搜索又是什么。
关键词搜索需要将文档和查询都拆解成一个个独立的词语,然后通过匹配这些词语来计算相关性。依赖于一种名为“倒排索引”的数据结构,可以瞬间找到包含特定关键词的所有文档。
在没有搜索引擎前,我们搜内容是这样的,打开一个网址,获取网站的内容,然后输入关键词进行匹配:
document -> to -> words
通过文章,获取里面的关键词,这就是所谓的“正向索引”,英文名为 forward index。
后来,我们希望输入一个关键词,找到含有这个关键词的有关文章:
真诚点赞 诚不我欺
回复