✅派聪明 RAG 聊天助手面试题预测，针对 WebSocket 和 prompt

1.我们来聊聊这个聊天助手。它最吸引人的特点之一就是像真人聊天一样，答案一个字一个字地蹦出来。这种‘流式响应’或‘打字机效果’，在技术上是如何实现的？

我先从整体的流程说起：当前端用户开始一次对话时，浏览器会通过 WebSocket 与后端建立一个长连接。这是一种双向的、长时间保持的连接，非常适合实时交互的场景，比如流式响应、打字机效果。

一旦用户在前端发出提问，这个消息就会通过 WebSocket 通道发送到后端。后端接收到消息后会去调用知识库去做一次混合检索，找出相关的文本内容后，再拼接上用户的历史上下文，构建一个完整的 Prompt。

接着去调用 DeepSeek，我们调用的是流式响应的 API。这一步是实现打字机效果的关键：我们用 Spring WebFlux 的 WebClient 作为 HTTP 客户端，在请求 LLM 的时候也以流式的方式订阅返回的数据流。也就是说，LLM 一边生成内容，一边把内容分成一小段一小段地推给我们，我们这边就一边接收一边处理。

每接收一段内容，就通过 WebSocket 立刻推送给前端。前端收到一小段字符后，就直接追加到聊天窗口中，给用户的感觉就是“打字机一点一点显示”的效果。

2.既然用到了WebSocket，那它和我们更常用的HTTP请求相比，有什么本质区别？为什么在这个场景下，必须用WebSocket？

WebSocket 能够支持服务端主动、实时地向客户端推送数据，而 HTTP 不具备这个能力。

具体来说，HTTP 是一种无状态、单向的请求-响应协议，它的工作机制决定了只能由客户端发起请求，服务端只是被动响应。哪怕我们用长轮询等手段模拟实时性，本质上还是客户端不断地问“有没有新的消息”，服务器无法主动发“有了”。

WebSocket 是一种有状态、全双工的协议，一旦连接建立，前后端就可以随时互相发送消息。在派聪明中，前端发起 WebSocket 请求建立连接后，后端就会一直监听前端的请求并保持连接。用户一旦发送请求，派聪明就会实时将 DeepSeek 返回的是流式数据通过 WebSocket 传回给前端。

总的来说，WebSocket 是我们实现流式响应和打字机效果的最佳选择，它解决了 HTTP 无法实时双向通信的问题，真正做到了后端一边接收大模型响应、一边实时推送给前端的效果。

3.WebSocket连接是长连接，它比HTTP要脆弱。如果用户的网络抖动一下，连接断了，会发生什么？你们有什么异常处理和重连机制吗？

考虑到用户可能在使用过程中遇到网络波动或者临时断网的情况...

10 条评论

三贵 2026年03月03日 11:32

引用原文：MySQL 的读写速度虽然已经非常快了，但和内存数据库 Redis 相比，还是存在数量级的差距。Redis 的读写速度可以达到微秒级，非常适合用来支撑这种实时性要求很高的业务。其次，对于聊天这种历史数据，并不需要持久化，它有明确的“保质期”——只需要保留最近一段时间的上下文来辅助 LLM 生成回答就可以了。我们只需要设置一个 TTL，Redis 就能在到期后自动清除这些数据。如果用 MySQL 来存储，还需要起一个定时任务，去清理数据。

@派聪明，在长时间为使用聊天数据后，为什么不选择将聊天记录存到mysql中，万一用户在后续重新开启该聊天怎么办，为什么不能先存到mysql中，在用户开启聊天后，将聊天数据重新存回redis中

回复1 取消回复

派聪明 2026年03月03日 11:33

根据参考资料中的技术方案，选择Redis而非MySQL存储聊天记录的核心原因及数据持久性解决方案如下： ### **不直接存MySQL的原因** 1. **性能瓶颈** MySQL的读写速度与Redis存在数量级差距（Redis微秒级响应）。聊天**需高频读写（每次请求/回答都要更新），Redis的内存特性更匹配实时性要求。 2. **数据生命周期管理** 聊天**只需保留最近上下文（约20条），有明确"保质期"。Redis通过TTL（生存时间）自动清理过期数据，无需额外定时任务；MySQL需手动维护数据清理逻辑。 --- ### **用户重新开启聊天时的数据恢复机制** 系统通过**冷热数据分层**解决**存储问题： 1. **Redis（热数据层）** - 存储高频访问的近期对话（最近20条），保证实时读写性能。 - 设置TTL（如7天），自动清理过期数据。 2. **MySQL（冷数据层）** - **定期同步**：后台任务将Redis中的**对话异步持久化到MySQL（如每日全量同步或增量同步）。 - **按需加载**：用户重新开启聊天时，系统： - 先从Redis加载近期数据（若存在）； - 若Redis无数据（如TTL过期），则从MySQL加载完整**记录； - 重新加载到Redis，恢复会话上下文。 --- ### **为什么这样设计更优** | **方案** | **优势** | **适用场景** | |----------------|--------------------------------------------------------------------------|----------------------------------| | **Redis+MySQL** | - 高性能：Redis支撑实时响应<br>- 数据安全：MySQL保证**持久化<br>- 自动管理：TTL+定时任务简化运维 | 聊天**需高频读写+**可追溯 | | **纯MySQL** | - 数据绝对持久化 | 对实时性要求低、**数据需**保留 | | **纯Redis** | - 极致性能 | 临时会话、无需**保存的场景 | > ✅ **结论**：当前方案通过Redis保证实时交互体验，MySQL确保数据不丢失，结合TTL和定期同步实现高效且可*的数据管理。用户重新开启聊天时，系统会自动从MySQL恢复**记录到Redis，实现无缝衔接。

过时的草莓 2026年02月28日 23:36

引用原文：把前面的信息“压缩”成一句或几句话

如何实现@派聪明

派聪明 2026年02月28日 23:37

实现对话**摘要机制（压缩**信息）的核心流程如下： ### 1. **触发时机** - 当对话**超过预设阈值（如10条消息）时，自动触发摘要。 - 或定期在对话间隙（如用户停止输入3秒后）触发。 ### 2. **摘要生成** - **调用摘要API**：将待压缩的**对话（如前10条）作为输入，调用专门的摘要模型（如DeepSeek）： ```python prompt = f"请将以下对话压缩为1-2句话，保留核心信息：\n{history_text}" summary = llm_********(prompt) # 返回摘要文本 ``` - **规则约束**：在Prompt中明确要求： - 保留关键实体（人名、产品名等） - 忽略冗余细节（如问候语、重复确认） - 控制长度（如不超过50字） ### 3. **上下文重构** - 替换旧**：用生成的摘要替换被压缩的原始对话记录。 - 保留最新上下文：将摘要与最近几条消息（如最新5条）组合成新上下文： ```json [ {"role": "system", "content": "对话摘要：[压缩后的摘要]"}, {"role": "user", "content": "最新用户问题"}, {"role": "assistant", "content": "最新回答"} ] ``` ### 4. **技术要点** - **成本控制**：摘要频率不宜过高（如每5轮摘要1次），避免频繁调用API。 - **信息保真**：通过Prompt设计确保摘要不丢失关键决策依据（如合同条款、数据结论）。 - **容错机制**：若摘要失败（如返回空内容），回退到滑动窗口策略。 ### 5. **优势对比** | **策略** | 滑动窗口 | 摘要机制 | |----------------|------------------|------------------------| | 信息完整性 | 丢失早期内容 | 保留核心**信息 | | Token消耗 | 固定（20条） | 可控（摘要+最新5条） | | 响应延迟 | 低 | 中等（需额外API调用） | > **示例**： > 原**（10条）→ 压缩为摘要（如："用户**A方案，已推荐产品X并确认预算"）→ 新上下文 = 摘要 + 最新3条消息。此方案在保持语义连贯性的同时，有效解决了上下文溢出问题，为后续语义检索机制奠定基础。

过时的草莓 2026年02月28日 22:34

引用原文：第一种 key 用于定位用户的会话，格式为 user:{userId}:current_conversation_id

current_conversation_id和redis中另一个用于存**会话列表的两个key什么区别@派聪明

派聪明 2026年02月28日 22:35

根据参考资料，Redis 中这两个 key 的核心区别在于**存储的数据类型和用途**： ### 1. **`user:{userId}:current_conversation_id`** - **用途**：作为用户当前活跃会话的**索引键**。 - **数据内容**：存储一个唯一的 `conversationId`（UUID 字符串）。 - **作用**：快速定位用户当前正在进行的对话 ID。例如，当用户 `itwanger` 发起新对话时，系统通过该键查找其当前会话 ID。若不存在或过期，则生成新 ID 并存入。 - **设计逻辑**：每个用户仅有一个活跃会话，因此此键始终指向最新的对话记录。 --- ### 2. **`conversation:{conversationId}`** - **用途**：存储**具体的对话**记录**。 - **数据内容**：一个 JSON 字符串，序列化后的对话列表（包含多轮用户提问和助手回答）。 - **作用**：通过 `conversationId` 从 Redis 中读取完整的上下文**，用于后续对话的上下文拼接。 - **设计逻辑**：每个会话 ID 对应一条独立的对话链，支持多轮对话的连续性。 --- ### **关键区别总结** | **Key 类型** | `user:{userId}:current_conversation_id` | `conversation:{conversationId}` | |-------------------------------|------------------------------------------|------------------------------------------| | **数据内容** | 当前会话的 ID（UUID 字符串） | 对话**列表（JSON 格式） | | **作用** | 定位用户当前活跃会话的索引 | 存储具体对话内容 | | **查询逻辑** | 通过用户 ID 查会话 ID | 通过会话 ID 查对话** | | **示例** | `user:itwanger:current_conversation_id` → `uuid-123` | `conversation:uuid-123` → `[{"role":"user","msg":"..."}]` | --- ### **工作流程示例** 1. 用户 `itwanger` 发起新对话： - 查找 `user:itwanger:current_conversation_id`，若无则生成新 ID（如 `uuid-123`）并存入该键。 2. 用户发送消息后： - 对话记录追加到 `conversation:uuid-123` 的 JSON 列表中。 3. 下次交互时： - 通过 `user:itwanger:current_conversation_id` 获取 `uuid-123`，再读取 `conversation:uuid-123` 获取完整**上下文。这种设计实现了**用户 ID → 会话 ID → **记录**的高效映射，确保多轮对话的连续性。

过时的草莓 2026年02月28日 22:42

user:{userId}:conversations这个呢

派聪明 2026年02月28日 22:44

在当前系统的Redis数据结构设计中，**`user:{userId}:conversations` 这个键并未被使用**。系统实际采用以下两种核心键结构： ### 1. **用户当前会话ID存储** - **键格式**：`user:{userId}:current_conversation_id` - **值**：一个UUID字符串（当前活跃会话的唯一标识）。 - **作用**：快速定位用户最近一次对话的会话ID，避免每次都创建新会话。 - **示例**：`user:itwanger:current_conversation_id` → `"a1b2c3d4-e5f6..."` ### 2. **会话**记录存储** - **键格式**：`conversation:{conversationId}` - **值**：JSON字符串（序列化的对话列表，包含用户提问和助手回答）。 - **作用**：存储指定会话的完整**记录（最多保留最近20条）。 - **示例**：`conversation:a1b2c3d4-e5f6...` → `[{"role":"user","content":"..."},{"role":"assistant","content":"..."}]` --- ### 为什么不需要 `user:{userId}:conversations`？ 1. **避免冗余存储**： - 用户的所有会话**已通过 `conversation:{conversationId}` 分散存储，无需额外存储会话列表。 - 当前会话ID已通过 `current_conversation_id` 关联，无需遍历所有会话。 2. **简化查询逻辑**： - 系统通过 `current_conversation_id` 直接定位当前会话，再通过 `conversation:{conversationId}` 获取**，效率更高。 - 若需查看所有**会话，可直接按 `conversation:*` 模式扫描Redis（但当前设计未提供此功能）。 3. **符合滑动窗口策略**： - 系统仅保留最近20条消息，按会话ID存储更符合“按需加载上下文”的设计，避免存储过多无关数据。 --- ### 如果扩展设计 `user:{userId}:conversations` 会怎样？若需存储用户所有会话的元数据（如会话创建时间、标题等），可新增： - **键格式**：`user:{userId}:conversations` - **值**：JSON数组（存储所有会话ID及元数据）。 ```json [ {"conversationId": "a1b2...", "title": "技术讨论", "createdAt": "2023-10-01"}, {"conversationId": "b2c3...", "title": "项目规划", "createdAt": "2023-10-02"} ] ``` 但需注意： - **成本增加**：存储所有会话ID占用额外内存。 - **维护复杂度**：需处理会话过期、删除等逻辑。 - **当前需求不匹配**：系统仅需最近会话的上下文，无需**会话列表。 --- ### 总结当前设计通过 **两级键结构**（用户→当前会话ID→会话**）高效实现了多轮对话管理，**无需 `user:{userId}:conversations`**。这种设计既避免了冗余存储，又确保了上下文加载的实时性和简洁性。

过时的草莓 2026年02月28日 21:12

引用原文：只需要保留最近一段时间的上下文来辅助 LLM 生成回答就可以了

指的是一个conversationsationid下的一轮聊天**记录吗，还是一个用户关联的所有conversation呢？@派聪明

派聪明 2026年02月28日 21:13

根据参考资料中的描述，“最近一段时间的上下文”指的是**单个 `conversationId` 下的对话****，而非用户关联的所有会话。以下是关键依据： 1. **数据隔离设计** 系统通过两种 Redis Key 隔离不同会话： - `user:{userId}:current_conversation_id`：存储用户当前活跃的会话 ID（单个）。 - `conversation:{conversationId}`：存储该会话的具体对话记录（仅当前会话的**）。 2. **会话独立性** 当用户发起新对话时（参考资料中 `getOrCreateConversationId` 方法）： - 若用户无活跃会话或旧会话过期，系统会**生成新的 `conversationId`**。 - 新对话会覆盖 Redis 中 `user:{userId}:current_conversation_id` 的值，指向新会话。 - 旧会话的**记录因无引用且 TTL 过期，会被自动清理。 3. **上下文范围限制** 在 `updateConversationHistory` 方法中，系统仅处理**当前 `conversationId` 对应的对话列表**： ```java // 截取当前会话最近的20条消息 if (************() > 20) { history = history.subList(************() - 20, ************()); } ``` 操作对象是 `conversation:{conversationId}` 的 JSON 数据，与其他会话无关。 4. **多会话场景** 若用户同时与多个会话交互（如标签页切换），每个会话有独立的 `conversationId`： - 前端通过 WebSocket 传递当前会话的 `conversationId`。 - 后端仅加载该 ID 对应的**记录，不会混淆其他会话的上下文。 **结论**：系统按 `conversationId` 隔离上下文，每个会话独立维护最近 20 条消息**。用户的所有会话之间数据完全隔离，不会相互影响。

过时的草莓 2026年02月28日 21:15

那这里提到的TTL只是让用户过去发起的一些会话失效找不到是不是？

派聪明 2026年02月28日 21:16

是的，您理解得很准确。在派聪明的技术架构中，TTL（Time To Live，生存时间）主要用于控制****会话和对话记录的自动失效**，具体体现在以下两个层面： --- ### 1. **当前会话ID的TTL（7天）** - **作用**：为每个用户维护一个当前活跃的会话ID（`user:{userId}:current_conversation_id`）。 - **失效逻辑**： - 如果用户**7天内未发起新对话**，该会话ID会自动过期。 - 下次用户发起对话时，系统会**创建新的会话ID**（UUID），并重新设置7天TTL。 - **目的**：避免**不活跃用户占用Redis资源，同时确保新对话使用独立会话。 --- ### 2. **对话**记录的TTL（7天）** - **作用**：存储具体对话内容的Key（`conversation:{conversationId}`）同样设置7天TTL。 - **失效逻辑**： - 当会话ID过期后，关联的对话**记录会**自动被Redis删除**。 - 即使会话ID未过期，若某条对话记录在7天内未被访问或更新，也可能被清理（取决于Redis的内存策略）。 - **目的**：防止**数据无限累积，控制存储成本。 --- ### 关键设计点 - **TTL仅针对**数据**：当前活跃的对话不受TTL影响。只要用户持续对话，系统会通过更新操作**自动续期TTL**（例如每次新消息写入时重置TTL）。 - **无状态连接**：后端不依赖长连接状态，即使断线重连，只要用户提供有效的会话ID，系统仍能恢复上下文。 - **自动清理**：Redis的TTL机制确保无需人工干预，过期数据自动释放内存。 > ✅ **总结**：TTL的核心作用是让**过期的**会话和对话记录自动失效**，避免数据堆积。当前活跃的对话会通过持续交互保持TTL有效，确保用户体验连贯性。

过时的草莓 2026年02月28日 19:38

引用原文：后端在收到这个 WebSocket 连接请求后，并不会立即建立连接，而是先进行身份校验。

在代碼的哪裏實現這部分@派聰明

过时的草莓 2026年02月28日 16:50

引用原文：是“无状态连接”原则。比如用户重连后重新发一条消息，我们会通过消息中携带的会话 ID 去缓存中找回上下文，然后接着处理，就好像这条连接从来没断过一样。

@派聪明这里提到找回上下文是否有误，是否是去找会话的**记录，上下文是不是指的是知识库检索的知识？

派聪明 2026年02月28日 16:51

根据参考资料分析，原文表述存在术语混淆，需要澄清： **"找回上下文"实际指代的是"会话**记录"，而非知识库内容。** 具体说明如下： 1. **上下文的具体含义** 原文中的"上下文"特指 **Redis中存储的对话**记录**（即多轮对话的`conversationId`关联的JSON数据）。通过会话ID从Redis缓存中恢复的是用户之前的聊天内容，用于保持对话连贯性。 2. **与知识库检索的区别** - **会话****：存储在Redis，按`conversationId`**，包含用户提问和模型回答（参考资料5/7）。 - **知识库内容**：存储在Elasticsearch，通过用户问题实时检索（参考资料9/11），属于独立流程。两者在系统架构中是分离的模块。 3. **技术实现逻辑** ```mermaid graph LR A[用户重**送消息] --> B[携带会话ID] B --> C{从Redis加载对话**} C --> D[拼接**记录+新问题] D --> E[调用DeepSeek生成回答] E --> F[新回答写入Redis覆盖**] ``` 重连时，系统通过会话ID从Redis恢复的是**对话**列表**（如参考资料7中的`conversation:{conversationId}`结构），用于构建完整的Prompt。 4. **术语修正建议** 原文"找回上下文"宜改为 **"恢复会话**"** 或 **"加载对话上下文"**，以明确指向Redis中的聊天记录，避免与知识库检索的"上下文"混淆（参考资料11中两者是独立组合的）。 **结论**：原文表述存在歧义，"上下文"在此场景下应明确为**对话**记录**，而非知识库内容。

过时的草莓 2026年02月28日 12:16

引用原文：，在后端增加了会话恢复能力。

为什么要恢复会话@聪明派

为什么要会话恢复@派聪明

派聪明 2026年02月28日 12:16

在聊天系统中，**会话恢复能力**的核心作用是解决 **WebSocket 长连接因网络中断导致的数据丢失问题**，确保用户对话的连续性和一致性。以下是具体原因和实现逻辑： --- ### **1. 网络中断的必然性** - WebSocket 是长连接，但网络环境不稳定（如手机切换网络、Wi-Fi 断开）可能导致连接突然断开。 - 若无恢复机制，用户重连后需重新输入问题，且**对话上下文丢失，体验极差。 --- ### **2. 会话恢复的核心价值** - **对话连续性**：后端通过 **Redis 缓存会话状态**（如 `conversationId` 和**记录），用户重连时通过 `conversationId` 重新加载上下文，实现“无缝衔接”。 - **避免重复输入**：用户无需因网络中断重复提问，系统自动恢复对话进度。 --- ### **3. 技术实现逻辑** - **无状态设计**：后端不依赖 WebSocket 连接本身存储状态，而是将会话数据（如用户 ID、对话**）存入 Redis，与连接解耦。 - **会话恢复流程**： ```mermaid graph LR A[用户重连] --> B[携带Token和conversationId] B --> C{后端校验Token} C -->|有效| D[从Redis加载**记录] D --> E[恢复对话上下文] E --> F[继续处理新请求] ``` --- ### **4. 对比无恢复机制的后果** | 场景 | 无恢复机制 | 有恢复机制 | |--------------------|------------------------------|------------------------------| | **网络中断后** | 丢失对话**，需重新输入问题 | 自动加载**，对话连续 | | **用户体验** | 碎片化，易中断 | 流畅，如未中断般自然 | | **系统可*性** | 高依赖网络稳定性 | 抗网络波动，鲁棒性强 | --- ### **总结** 会话恢复能力本质是 **用后端状态缓存（Redis）弥补 WebSocket 连接的脆弱性**，通过 `conversationId` 关联**记录，确保用户在网络波动后仍能获得连贯的对话体验。这是实时交互系统可*性的关键设计。

过时的草莓 2026年02月28日 12:15

引用原文：在后端增加了会话恢复能力。

为什么还要恢复会话，后续不是也会寻找上下文吗@派聪明

派聪明 2026年02月28日 12:17

这个问题涉及到会话恢复与上下文恢复的区别，核心在于**连接状态与业务数据的分离处理**。以下是具体分析： --- ### 1. **会话恢复 ≠ 上下文恢复** - **会话恢复**：指WebSocket连接断开后重新建立通信链路（如网络重连）。此时**连接本身的状态**（如用户身份、当前会话ID）需要重新同步，否则后端无法识别用户身份和关联**数据。 - **上下文恢复**：指通过Redis中的**记录重建对话上下文（如用户提问、模型回答等）。这是**业务数据层**的恢复，依赖会话ID关联**数据。 --- ### 2. **为什么必须先恢复会话？** - **连接状态丢失**：WebSocket断开后，后端无法感知用户身份和当前会话ID（如`conversationId`）。若直接发送消息，后端会视为**新会话**，导致： - 新建`conversationId`覆盖旧数据。 - 无法关联Redis中的**记录。 - **身份验证缺失**：会话恢复需重新传递JWT令牌（参考资料4），否则后端无法确认用户身份，无法从Redis中加载其专属上下文。 --- ### 3. **会话恢复后的流程** ```mermaid graph LR A[用户重连] --> B[前端发送JWT] B --> C[后端验证身份] C --> D[获取会话ID] D --> E[从Redis加载**记录] E --> F[恢复上下文] F --> G[继续对话] ``` - **关键步骤**： 1. 前端重连时携带JWT（参考资料4）。 2. 后端解析JWT获取用户ID，通过`user:{userId}:current_conversation_id`从Redis找到当前会话ID（参考资料7）。 3. 用该会话ID从Redis加载**记录（参考资料5），重建上下文。 4. 后续对话正常进行。 --- ### 4. **若跳过会话恢复的后果** - **上下文丢失**：若直接发送消息而不恢复会话，后端会生成新会话ID，导致： - 新对话覆盖旧数据（如Redis中`conversation:{newId}`覆盖旧记录）。 - **记录无法关联，用户需重新开始对话。 - **权限校验失败**：知识库检索需用户身份（参考资料10），无会话则无法验证权限。 --- ### 总结 **会话恢复是基础**，解决连接层的状态同步问题；**上下文恢复是业务层**，依赖会话ID关联**数据。两者协同确保用户在断网重连后，既能重新建立通信链路，又能无缝延续对话**，避免数据丢失或权限错误。

过时的草莓 2026年02月27日 23:47

引用原文：我们用 Spring WebFlux 的 WebClient 作为 HTTP 客户端，在请求 LLM 的时候也以流式的方式订阅返回的数据流

@派聪明如何理解

派聪明 2026年02月27日 23:48

这段话描述了实现流式响应（打字机效果）的关键技术方案，可拆解理解如下： --- ### 1. **核心工具：Spring WebFlux + WebClient** - **Spring WebFlux**：是Spring框架的**响应式编程**模块（基于Reactor或RxJava），支持非阻塞异步处理，适合高并发场景。 - **WebClient**：是WebFlux提供的**HTTP**端**，替代传统的RestTemplate，专门用于异步调用。 --- ### 2. **实现流式响应的核心逻辑** - **流式请求LLM**：调用大模型（如DeepSeek）时，不等待完整响应返回，而是以**流式（Streaming）** 方式发起请求。 - **订阅数据流**：通过WebClient订阅LLM返回的**数据流（Flux/Mono）**，LLM会**逐段生成内容**并推送给**端。 --- ### 3. **技术流程详解** ```mermaid sequenceDiagram 前端->>后端：发送提问（WebSocket）后端->>LLM：流式调用API（WebClient） LLM-->>后端：返回数据流（分段）后端->>前端：实时推送分段内容（WebSocket）前端->>用户：逐字显示（打字机效果） ``` - **关键点**： 1. **LLM流式返回**：LLM将答案拆分为多个小片段（如每生成一句话就推送一次）。 2. **WebClient订阅**：后端通过WebClient的`subscribe()`方法实时接收这些片段。 3. **前端实时渲染**：后端立即通过WebSocket将片段推送给前端，前端逐字追加到聊天框。 --- ### 4. **与传统HTTP调用的区别** | **方式** | 传统HTTP调用 | 流式调用（WebFlux+WebClient） | |----------------|---------------------------|-----------------------------| | **数据获取** | 等待完整响应返回 | 边生成边接收，实时推送 | | **用户体验** | 需等待完整答案出现 | 打字机效果，交互感强 | | **技术基础** | 阻塞式（如RestTemplate） | 非阻塞式（响应式编程） | --- ### 5. **为什么选择WebFlux？** - **高并发支持**：非阻塞特性使其在流式场景下资源消耗更低。 - **流式原生支持**：WebClient直接对流式API（如OpenAI的`stream=true`）提供完美适配。 - **与WebSocket协同**：WebFlux的异步特性天然适合与WebSocket长连接配合，实现“后端接收LLM流数据→前端实时推送”的闭环。 --- ### 总结 > **一句话解释**： > 通过**Spring WebFlux的WebClient**以**流式方式订阅**LLM的返回数据，实现一边接收数据一边推送前端，最终呈现“打字机效果”。这是异步编程在AI交互场景的典型应用。

1.我们来聊聊这个聊天助手。它最吸引人的特点之一就是像真人聊天一样，答案一个字一个字地蹦出来。这种‘流式响应’或‘打字机效果’，在技术上是如何实现的？

2.既然用到了WebSocket，那它和我们更常用的HTTP请求相比，有什么本质区别？为什么在这个场景下，必须用WebSocket？

3.WebSocket连接是长连接，它比HTTP要脆弱。如果用户的网络抖动一下，连接断了，会发生什么？你们有什么异常处理和重连机制吗？

热门评论

10 条评论

目录

划词评论