杠精派
派聪明
0/512

热门评论

Plop1611 2025年11月23日 16:59
@派聪明 没有ground truth,如何评估派聪明当前模型的召回率和精确率?
点赞
回复1 取消回复
派聪明 2025年11月23日 16:59
在没有ground truth的情况下,可以通过以下方法评估派聪明的召回率和精确率: 1. **用户反馈机制**:在检索结果后添加"顶/踩"按钮,收集用户对相关性的直接评价,计算点击率作为相关性指标 2. **A/B测试对比**:将不同算法(如不同融合权重、分块策略)分组测试,比较各组用户满意度差异 3. **相关性自评估**:使用LLM对检索结果进行自评,设计提示词让模型判断每个检索结果与查询的相关性 4. **业务指标监控**: - 对话完成率:用户是否基于检索结果完成对话 - 查询澄清率:用户是否需要多次提问才能获得答案 - 转化率:检索结果是否**用户完成预期操作 5. ***样人工评估**:定期*样**,让标注员评估检索质量,建立评估标准 6. **间接指标分析**: - 平均查看文档数 - 会话时长 - 重复查询率 这些方法虽然不如有ground truth精确,但能有效反映系统在实际使用中的表现,帮助持续优化检索算法。
点赞
回复 取消回复

3 条评论

Plop1611 2025年11月23日 16:59
@派聪明 没有ground truth,如何评估派聪明当前模型的召回率和精确率?
点赞
回复1 取消回复
派聪明 2025年11月23日 16:59
在没有ground truth的情况下,可以通过以下方法评估派聪明的召回率和精确率: 1. **用户反馈机制**:在检索结果后添加"顶/踩"按钮,收集用户对相关性的直接评价,计算点击率作为相关性指标 2. **A/B测试对比**:将不同算法(如不同融合权重、分块策略)分组测试,比较各组用户满意度差异 3. **相关性自评估**:使用LLM对检索结果进行自评,设计提示词让模型判断每个检索结果与查询的相关性 4. **业务指标监控**: - 对话完成率:用户是否基于检索结果完成对话 - 查询澄清率:用户是否需要多次提问才能获得答案 - 转化率:检索结果是否**用户完成预期操作 5. ***样人工评估**:定期*样**,让标注员评估检索质量,建立评估标准 6. **间接指标分析**: - 平均查看文档数 - 会话时长 - 重复查询率 这些方法虽然不如有ground truth精确,但能有效反映系统在实际使用中的表现,帮助持续优化检索算法。
点赞
回复 取消回复
Plop1611 2025年11月22日 23:18
引用原文:评估RAG系统检索质量的关键指标有哪些?
没有ground truth,如何评估当前模型的召回率和精确率?
点赞
回复 取消回复
wacdm 2025年11月16日 15:20
31. 重量级重排:使用 llm 来决定融合和重排BM25 和 knn 的结果
点赞
回复 取消回复

目录