美团大模型应用开发面经，主要是RAG这块

继续给大家分享美团大模型应用开发的面经，及详细答案，系好安全带，我们粗粗粗发～～

content

01、Embedding 向量检索的原理是什么？如何保证检索准确性？

“先说说你们项目里 Embedding 向量检索是怎么做的？”老王扶了扶快从鼻梁上掉下来的眼镜，开始拷打我派聪明 RAG 项目了。

我说：“我们用的是阿里的 text-embedding-v4 模型，把文本转成 2048 维的向量，存到 Elasticsearch 里。检索的时候，用户的问题也会先过一遍 Embedding 模型，变成同维度的向量，然后用 ES 的 KNN 做近邻搜索。”

向量检索的原理是什么？

Embedding 模型干的事情，就是把一段文字映射到一个高维空间的点上。语义相近的文本，在这个空间里距离就近。比如“Java 的垃圾回收机制”和“JVM GC 原理”，虽然字面完全不一样，但 Embedding 之后的向量距离会非常近。

检索的时候就是在这个高维空间里找“最近的邻居”——K-Nearest Neighbors，简称 KNN。ES 8.x 原生就支持这个能力，不需要装额外的插件。

“那光靠向量检索能保证准确吗？”老王追问。

我说：“光靠向量检索肯定不够，所以我们做了混合检索。”

在 HybridSearchService 里，我们设计了一个两阶段检索策略：

第一阶段：KNN 向量召回 + 关键词必中。 先用 KNN 做大范围召回，召回窗口是 topK 的 30 倍。同时加一个 must match 条件，要求文档必须包含用户查询的关键词。这一步是“宁可多召，不能漏掉”。

// 第一阶段：KNN 向量召回
s.knn(kn -> kn
    .field("vector")
    .queryVector(queryVector)
    .k(recallK)              // recallK = topK * 30
    .numCandidates(recallK)
);

// 关键词必中
s.query(q -> q.bool(b -> b
    .must(mst -> mst.match(m -> m
        .field("textContent").query(query)
    ))
));

第二阶段：BM25 重排序。 召回的结果用 BM25 算法重新打分。KNN 得分权重只占 0.2，BM25 占 1.0。因为纯向量检索有时候会把语义相关但答非所问的内容排前面，BM25 能把关键词匹配度高的内容拉上来。

// BM25 重排序
s.rescore(r -> r
    .windowSize(recallK)
    .query(rq -> rq
        .queryWeight(0.2d)        // KNN 得分权重 20%
        .rescoreQueryWeight(1.0d) // BM25 权重 100%
        .query(rqq -> rqq.match(m -> m
            .field("textContent")
            .query(query)
            .operator(Operator.And)
        ))
    )
);

另外还有一道保险——minScore(0.3d)，低于 0.3 分的结果直接过滤掉，避免把完全不相关的内容推给用户。

老王听完点了点头：“不错，两阶段检索这个思路是对的。那你们的 Embedding 模型是怎么调用的？有没有做批量处理？”

我说：“有。EmbeddingClient 里做了分批处理，默认每批 100 条文本。因为 Dashscope 的 API 对单次请求有条数限制，所以大文件切片后不能一股脑全扔过去。而且加了重试策略，fixedDelay 重试 3 次，每次间隔 1 秒，超时时间设置为 30 秒：

public List embed(List texts, String requesterId, UsageType usageType) {
    for (int start = 0; start < texts.size(); start += batchSize) {
        List batch = texts.subList(start, end);
        String response = callApiOnce(batch);
        // 重试策略：固定间隔 1 秒，最多 3 次
        .retryWhen(Retry.fixedDelay(3, Duration.ofSeconds(1)))
        .block(Duration.ofSeconds(30));
    }
    return vectors;
}

还有一个容灾逻辑，如果向量生成失败了，检索会降级成纯文本检索。

02、Function Calling 如何解析用户的意图？

老王切到了新的话题：“Function Calling 了解吗？讲讲它是怎么解析用户意图的。”

我说：“那必须了解啊，这玩意儿现在几乎是 Agent 的标配。”

Function Calling 的核心思路其实也简单。

给大模型一份“工具清单”，每个工具有名字、描述、参数的 JSON Schema。用户说一句话，模型看看手里有哪些工具可用，判断这句话的意图是不是需要调某个工具，如果是，就返回一个结构化的函数调用请求。

举个例子，用户说“帮我查一下北京明天的天气”，模型手里有个 get_we...

6人已点赞

7 条评论

柒眠 2026年06月10日 17:12

引用原文： 2048 维的向量

@派聪明为什么用2048维

派聪明 2026年06月10日 17:13

采用2048维向量主要是为了在**语义表达能力（准确度）**与**计算/存储开销**之间取得最佳平衡。结合项目实践，原因主要有以下几点： **1.足够的语义表征精度** 向量维度的本质是用来表征文本特征的空间。在 RAG（检索增强生成）系统中，不仅要处理“字面匹配”，更要理解“语义相似”（例如“Java垃圾回收”与“JVM GC”）。2048维属于高维空间，能够捕捉极其丰富、细微的语义特征，从而确保在进行高维空间 KNN（最近邻）检索时，找出的内容在语义上高度精准，避免答非所问。 **2.模型与检索场景的最佳平衡** 虽然维度的增加能提升语义解析的精细度，但并非越高越好。过高的维度（如4096维）会带来严重的“维度灾难”，导致计算量剧增、存储成本翻倍，甚至引起向量表征过于稀疏而降低检索质量。2048维是目前主流高性能 Embedding模型（如项目使用的阿里 `text-embedding-v4`）在处理复杂长文本时，兼顾检索准确率和系统性能的“甜点（Sweet Spot）”。 **3.匹配项目的检索策略** 该 RAG 项目采用了非常深度的混合检索策略（如30倍窗口的召回率 + BM25 重排序 +语义分块）。2048维提供的精准基础向量距离度量，是保证第一阶段 KNN 大规模召回时不漏掉核心相关文档的前提。如果维度太低（如256或512），底层向量表征的信息量不足，后续再怎么重排序也无法挽回语义的丢失。

粗心的超短裙 2026年05月21日 23:33

引用原文：存了所有的历史消息

不需要做上下文管理吗，如果历史消息很多也要加到prompt里吗

亚泽 2026年05月13日 10:14

引用原文：前 120 个字符的摘要文本

@派聪明元数据存这个是为何？

高高的雪糕 2026年05月01日 12:47

redis存储对话历史，怎么处理历史会话越来越多越来越大的问题呢