杠精派
派聪明
0/512

热门评论

再拖ddl就是🐷 2026年03月10日 20:58
引用原文:第二阶段:关键词过滤
@派聪明 这个第二阶段的关键词过滤是否是再knn召回的topK*30的基础上进行过滤的
点赞
回复7 取消回复
派聪明 2026年03月10日 20:59
是的,第二阶段的关键词过滤是在KNN召回的topK*30基础上进行的。 根据参考资料中的描述,混合检索包含三个阶段: 1. 第一阶段:KNN向量召回,获取topK*30个候选文档 2. 第二阶段:关键词过滤,在KNN召回结果基础上进行关键词匹配和权限过滤 3. 第三阶段:BM25重排序,对通过过滤的文档进行重新排序 在第二阶段,系统会对KNN召回的候选文档集进行关键词匹配(must条件)和权限过滤(filter条件),确保返回的文档既与查询关键词相关,又符合用户的访问权限。
点赞
回复 取消回复
展开剩余 6 条回复

213 条评论

啊这 2026年04月17日 21:10
引用原文:考虑到上下文会越来越长,我们打算在下一版实现一个滑动窗口,比如只保留最近 10 轮对话,或者根据 token 数量动态调整。
@派聪明 根据token数量动态调整是什么意思
点赞
回复 取消回复
liweihao 2026年04月14日 20:51
引用原文: CSV 格式
@派聪明 CSV是什么
点赞
回复 取消回复
乐在其中~ 2026年04月14日 14:21
引用原文:当然,高维度意味着成本更高。 从技术实现角度,我们在 ES 的 knowledge_base.json 中也配置了向量字段为 2048 维,使用 cosine 相似度计算。这个配置与豆包的 embedding 模型完全匹配。
@派聪明 这个地方为什么都要使用2048维,如何不一样会怎么样
1
回复 取消回复
乐在其中~ 2026年04月14日 14:20
引用原文:从技术实现角度,我们在 ES 的 knowledge_base.json 中也配置了向量字段为 2048 维,使用 cosine 相似度计算。这个配置与豆包的 embedding 模型完全匹配
@派聪明 这个地方为什么都要使用2048维,如何不一样会怎么样
点赞
回复 取消回复
悲伤牛肉鸡腿堡 2026年04月13日 16:23
引用原文:Apache Tika
@派聪明 讲讲这个
点赞
回复 取消回复
Cyan 2026年04月12日 15:19
引用原文:第一阶段:KNN 向量召回
@杠精派 第二阶段的关键词过滤,关键词是怎么选择的?不可能是用户自己决定选择谁作为关键词吧?
点赞
回复 取消回复
Cyan 2026年04月11日 20:31
引用原文:RAG系统中的混合检索是什么?如何实现?
@派聪明 混合检索中的第2阶段关键词过滤中的关键词是怎么确定的?是谁来决定过滤哪些关键词?
1
回复 取消回复
Cyan 2026年04月11日 18:07
引用原文:RAG系统中的混合检索是什么?如何实现
@派聪明 混合检索步骤中的关键词过滤阶段,关键词是怎么选择的?不可能是用户自己决定关键词吧?
点赞
回复 取消回复
笃行 2026年04月10日 19:54
引用原文:进行多轮对话
对于上下文,可以理解多长的@派聪明
点赞
回复 取消回复
笃行 2026年04月10日 19:53
引用原文:这样 AI 能够理解上下文
派聪明可以理解多长的上下文
点赞
回复 取消回复

目录