用 SQLite + Embedding 给 Agent 加上 RAG，从此秒懂项目源码

大家好，我是二哥呀。

这一期我们来给 Agent 装上 RAG，让 Agent 可以直接读我们的代码库。

举个具体场景，我问“MemoryManager 是怎么压缩上下文的”。没有 RAG 的 Agent 只能凭训练数据瞎猜，猜得对算运气好。

装了 RAG 之后，Agent 会先去代码库里捞 ContextCompressor.compressIfNeeded，看 Map-Reduce 的实现，再基于这段真实代码的回答。

整个 RAG 的架构示意图如下所示。

01、RAG 的整体设计

RAG 大家应该不陌生了，一句话讲清楚。

把知识库向量化然后持久化到向量数据库，查询的时候，按照语义相似度找出最相关的片段，再连同问题一起塞给 LLM。

落到代码场景，有三个问题绕不开。

第一个是怎么切。代码不像文档，按字数硬切会切出了很多噪音。最稳妥的办法是按结构特征切——文件级、类级、方法级，检索时按粒度匹配。

第二个是存到哪。生产环境通常上 Milvus、Pinecone 、ElasticSearch 这种专用向量库。但我们是个 CLI 工具，这些都太重量级了。

所以我这里选择了 SQLite。

第三个是怎么样才能搜得准。纯向量检索对自然语言友好，对代码标识符却不一定。

所以我们这里做了混合检索——语义打底、关键词加权、再按 chunk 类型加分。method 块比 file 块优先级高，因为用户问“怎么实现的”，给方法体比给整个文件有用得多。

举个例子，搜“处理用户登录的地方”，它能定位到 LoginService.authenticate。

整个 RAG 模块拆成 10 个类，下面一块一块讲。

CodeChunk          —— 代码块数据模型
CodeChunker        —— AST 分块
EmbeddingClient    —— 向量化客户端
VectorStore        —— SQLite 向量存储
CodeAnalyzer       —— AST 关系分析
CodeRelation       —— 关系数据模型
CodeIndex          —— 索引入口
CodeRetriever      —— 检索入口
RagQueryTokenizer  —— 查询分词
SearchResultFormatter —— 结果格式化

02、AST 解析

代码分块是 RAG 里最容易被低估的一步。分得好，检索准；分得糙，后面再多加权也救不回来。

Java 文件和非 Java 文件得分开处理。

Java 走 AST，按类和方法切；非 Java（比如 Markdown、yaml）就按字符大小切，每段控制在 2000 字符以内。

Java 这块用 JavaParser，CodeChunker 里的核心逻辑是这样：

public List chunkFile(Path filePath) throws IOException {
    String content = Files.readString(filePath);

    // 非 Java 文件：按大小分段
    if (!relativePath.endsWith(".java")) {
        return chunkLargeText(relativePath, content);
    }

    // Java 文件：AST 解析分块
    return chunkJavaFile(filePath, content);
}

JavaParser 可以把语言级别设到 JAVA_17，text block、record、sealed class 这些新语法都能正常解析。

万一遇到语法错误，可以自动回退到按大小分段，不会因为一个文件解析失败就漏掉整块代码。

非 Java 文件超过 2000 字符就生成一个 chunk，同时把起止行号一起带上。检索结果直接能跳到对应行，不用二次定位。

Java 这边类级和方法级各存一份。

类级只保留类声明和前 5 行（字段、签名这些信息够用了），不用把几百行的类全塞进去；方法级则把完整方法体捞出来，单独成块。

// 类级别 chunk
chunks.add(CodeChunk.classChunk(
    filePath.toString(), className,
    classHeader, classStart, classEnd));

// 方法级别 chunk
chunks.add(CodeChunk.methodChunk(
    filePath.toString(),
    className + "." + methodSignature,
    methodContent, methodStart, methodEnd));

CodeChunk 用的是 record，除了正文内容，还带了文件路径、块类型、名称、起止行号。

toEmbeddingText 方法会把这些拼成 [method:Agent.run] public String run(...) 这种格式再去算向量，让模型一眼看清这是哪个类的哪个方法。

CodeIndex 是整个索引流程的入口，把“遍历文件 → 分块 → 向量化 → 持久化”封装进去。

外面只要一行 codeIndex.index("/path/to/project") 就能跑起来。

遍历用的是 Files.walkFileTree，node_modules、target、.git、build 这些目录直接跳...

6人已点赞

43 条评论

etovo 2026年07月08日 15:07

引用原文：SQLite

@派聪明 paicli中长期记忆有存储在SQlite中吗

回复1 取消回复

派聪明 2026年07月08日 15:07

根据你提供的这篇文章，**文章中并没有提到长期记忆存储在 SQLite 中**。这篇文章是 PaiCLI 系列的第四期，主要讲的是 **RAG（检索增强生成）模块**的实现。文中提到的 SQLite，是用于 **RAG 的向量存储**，具体用途是： - 存储代码块的向量（以 JSON 数组持久化到 TEXT 字段） - 存储代码关系图谱（`extends`、`implements`、`calls` 等关系） - 默认数据库文件放在 `~/.paicli/rag/codebase.db` 也就是说，这个 SQLite 存的是**代码库的索引和向量**，服务于 `/search` 代码检索和 `/graph` 关系查询，**不是长期记忆（Memory）系统**。关于"长期记忆"，文章只在开头提到了一句——"PaiCLI 从一个只会一步步走的 ReAct Agent，逐渐进化到能规划、**能记忆**、还能读代码库的完整工具"——但这一期并没有展开讲记忆系统具体存在哪里。从现有内容来看，**无法判断长期记忆是否也用了 SQLite**。

Lee 2026年07月01日 17:23

引用原文：会立刻把索引路径同步给 ToolRegistry

@派聪明如何实现的同步

派聪明 2026年07月01日 17:23

从参考资料来看，这段文本出自文章第 07 节「集成到 Agent」，原文提到： > **"这里有个特别容易翻车的细节——ToolRegistry 里的 projectPath 默认取 user.dir，但用户可能用 /index 索引了另一个目录。如果不同步，工具检索的还是老路径，搜出来都是空的。所以 Main 里 /index 执行完之后，会立刻把索引路径同步给 ToolRegistry，确保两边对齐。"** 虽然文中没有贴出具体的同步代码，但根据上下文可以推断出实现思路： **核心逻辑**：ToolRegistry 中维护了一个 `projectPath` 属性（默认值为 `user.dir`），同时在 `search_code` 工具的创建逻辑中引用了这个路径。当用户执行 `/index` 命令（如 `/index /Users/xxx/my-project`）后，Main 类会拿到这个实际索引路径，然后**调用 ToolRegistry 的 setter 方法**（如 `toolRegistry.setProjectPath(actualPath)`）把路径更新进去。这样，后续 Agent 再调用 `search_code` 工具时，工具内部读取的是同步后的新路径，检索的就是正确目录下的代码库，而非默认的 `user.dir`。简单说就是三步： 1. **拿到新路径** —— `/index` 执行完拿到实际索引的目录 2. **调用更新方法** —— 把路径写回 ToolRegistry 3. **后续检索对齐** —— search_code 工具用新路径打开 VectorStore，搜到正确的代码

Lee 2026年07月01日 17:21

引用原文：如果不同步，工具检索的还是老路径，搜出来都是空的。所以 Main 里 /index 执行完之后，会立刻把索引路径同步给 ToolRegistry，确保两边对齐。 SearchResultFormatter 把搜索结果整理成人能看的样子。

@派聪明解释一下这句话

派聪明 2026年07月01日 17:21

这句话来自文章中 **"集成到 Agent"** 一节，核心讲的是一个**路径不同步导致的检索空结果问题**，以及解决方案。 **问题背景**： - 用户可能先用 `/index` 命令索引了某个代码库（比如 `/Users/xxx/my-project`） - 但 Agent 的 `ToolRegistry` 里记录的默认路径是 `user.dir`（当前工作目录） - 如果这两个路径不一致，Agent 调用 `search_code` 工具检索时，去的还是旧路径，结果就是空的 **解决方案**：在 `/index` 命令执行完毕后，**立即将用户实际索引的路径同步给 `ToolRegistry`**，确保两边指向同一个代码库，这样后续 Agent 检索时才能命中正确的数据。 **后半句说的是 `SearchResultFormatter`**：它负责把搜索结果整理成两种格式——给命令行（CLI）看的带 emoji 和缩进的格式，以及给 LLM 看的紧凑格式（带搜索摘要和代码行号），方便模型快速判断哪些结果值得参考。一句话总结：**索引完要"对账"，路径不一致，搜出来全是空的。**

Lee 2026年07月01日 17:15

引用原文：JavaParser 遇到 MethodCallExpr 节点之后，得往上回溯找到它属于哪个方法。CodeAnalyzer 里写了个 findParentMethod，沿着 AST 父节点一路往上爬，碰到 MethodDeclaration 就停。

@派聪明如何理解这句话

回复3 取消回复

派聪明 2026年07月01日 17:15

这句话描述的是 **AST（抽象语法树）解析中的"向上回溯"** 技术，核心解决的是这样一个问题： **问题场景**：当你用 JavaParser 解析 Java 源码时，会遇到一个 `MethodCallExpr`（方法调用表达式）节点，比如代码里写了 `chat()`、`executeTool()`。但你只知道"某处调用了这个方法"，却不知道这个调用**写在哪个方法体里**——是 `Agent.run()` 里调用的，还是 `Agent.clearHistory()` 里调用的？ **解决方式**：`findParentMethod` 这个方法做的就是"向上找爹"——从 `MethodCallExpr` 节点出发，沿着 AST 的父节点链条**一层一层往上爬**，直到碰到一个 `MethodDeclaration`（方法声明）节点为止。谁先碰到，就说明这个调用属于谁。打个比方：你在公司走廊听到有人喊"开会了"，但不知道是谁喊的。你沿着走廊一间一间办公室往回找，看到哪间办公室的门开着、里面有人在说话，就找到了出处。`findParentMethod` 干的就是这个事。 **为什么重要**：如果没有这一步，你只知道"代码里调了 `chat`"，但不知道是哪个方法调的。有了它，才能建立起**调用链关系**——比如 `Agent.run` 调了 `chat`，`Agent.run` 也调了 `executeTool`，这样画出的关系图谱才有意义。

展开剩余 2 条回复

狂野的大炮 2026年06月27日 21:29

引用原文：embed 方法按 provider 分发——Ollama 走 /api/embeddings，OpenAI 兼容的走 /embeddings，请求体和响应解析在内部处理过了，外面只负责传文本，拿向量。

解释@派聪明

派聪明 2026年06月27日 21:29

这段文字讲的是 **EmbeddingClient** 中 `embed` 方法的多 Provider 分发机制，核心意思是： **屏蔽底层差异，对外统一接口。** 具体拆解： 1. **按 Provider 分发**：方法内部根据配置的 provider（如 `ollama`、`openai`、`glm` 等），分别调用不同的 API 端点。 - Ollama → 请求 `http://localhost:11434/api/embeddings` - OpenAI 兼容的（智谱、千问等）→ 请求 `/embeddings` 端点 2. **请求体 & 响应解析内部处理**： - Ollama 的响应字段是 `embedding`，平铺数组 - OpenAI 兼容格式的响应在 `data[0].embedding` 里 - 这些差异都在方法内部消化了，对外统一转为 `float[]` 返回 3. **对外只传文本，拿向量**：调用方无需关心底层是哪个模型、怎么拼请求、怎么解析响应，只需要： ```java float[] vector = embed("用户登录的实现"); ``` 一句搞定。 **一句话总结**：这是一个"策略模式 + 适配器模式"的典型应用——把不同 Embedding 服务的差异封装在内部，对外提供一个无感的统一接口，上层代码切换 Provider 时一行代码不改。

奋斗的哈密瓜 2026年06月18日 10:06

引用原文：默认走 Ollama 本地模型，免费、断网也能跑，本地装个 Ollama 拉一个 nomic-embed-text 就能开干

@派聪明本地部署Ollama，对Windows电脑配置有什么要求

派聪明 2026年06月18日 10:06

小派正在努力回答中, 耐心等待一下吧...

Coos 2026年06月03日 22:21

引用原文： record

@派聪明这是什么

派聪明 2026年06月03日 22:22

结合参考资料，这里的 **`record`** 是 **Java 15 引入的一种特殊类（Java 语法特性）**，用于快速创建不可变的数据载体类。在这篇文章中提到它，主要是为了说明两点： 1. **AST 解析的兼容性**：作者在使用 JavaParser 解析 Java 代码构建 RAG 时，将语言级别设到了 JAVA_17。这意味着 `text block`（文本块）、`sealed class`（密封类）以及 **`record`** 等较新的 Java 语法都能被正常识别和解析，不会报错。 2. **作为数据模型**：文章提到 RAG 模块中的 `CodeChunk`（代码块数据模型）使用的就是 `record` 类型。利用它的特性，可以非常简洁地封装代码块的正文内容、文件路径、块类型、名称和起止行号等属性。

Coos 2026年06月03日 22:18

引用原文：ava 走 AST，按类和方法切

@派聪明具体是怎么做的，具体步骤

派聪明 2026年06月03日 22:19

根据提供的文章内容，Java文件基于AST（抽象语法树）按类和方法切分的具体步骤如下： **1. 识别文件类型并分发** 系统通过 `JavaParser` 库来处理 Java 文件。首先读取文件内容，判断其后缀是否为 `.java`，如果是则进入专门的 AST 解析流程（`chunkJavaFile`），否则按普通文本处理。 **2. 语法级别设置与容错** 将 JavaParser 的语言级别设为 JAVA_17，以完美兼容 text block、record 等新语法。同时设置容错机制：如果在解析过程中遇到语法错误的文件，会自动回退到按大小分段，防止因单个文件失败导致整体中断。 **3. 按类级切分** 遍历 AST 找到类声明，但**不把几百行的整个类全塞进去**。类级别只保留“类声明和前 5 行”（主要包含字段、签名等核心信息），作为独立的 `classChunk` 存入。 **4. 按方法级切分** 对于类中的方法，会将**完整的方法体**单独捞出来，切分为独立的 `methodChunk`。这种切分逻辑优先级最高，因为用户问“怎么实现”时，提供具体方法体比提供整个文件有用得多。 **5. 拼装元数据与向量化** 切分出来的代码块（使用 record 结构保存）除了正文内容，还会附带文件路径、块类型（类或方法）、名称、起止行号。最后通过 `toEmbeddingText` 方法将这些信息拼成类似 `[method:Agent.run] public String run(...)` 的格式，再送去计算向量。这样模型一眼就能看清这是哪个类的哪个方法。

Coos 2026年06月03日 22:17

@派聪明具体是怎么做的

派聪明 2026年06月03日 22:17

针对Java文件，系统主要通过 **JavaParser** 工具进行 **AST（抽象语法树）解析**，按“类级别”和“方法级别”分别提取代码块。具体做法如下： 1. **类级别切分（保留摘要）**：提取类声明及其前5行代码（如字段、方法签名等关键信息），不把几百行的完整类代码全塞进去，避免注入过多噪音。 2. **方法级别切分（保留全貌）**：将完整的“方法体”单独提取出来作为一个独立的代码块。 3. **附带元数据拼接**：切分出的代码块（使用 `record` 结构保存）除了正文内容，还会记录文件路径、块类型、名称和起止行号。向量化时，会拼成如 `[method:Agent.run] public String run(...)` 的格式，让模型一眼看清来源。 4. **异常容错机制**：优先走 AST 解析（支持 Java 17 新语法）；如果遇到语法错误解析失败，会自动降级，回退到按字符大小分段，确保不会因为单个文件报错而漏掉代码。

用 SQLite + Embedding 给 Agent 加上 RAG，从此秒懂项目源码

01、RAG 的整体设计

02、AST 解析

热门评论

43 条评论

目录

划线评论