✅SSE面试题预测：SSE 与WebSocket区别详解

1. 什么是 SSE（Server-Sent Events）？和 WebSocket 有什么区别？

考察点：协议理解

参考答案：

SSE 是一种服务器向客户端单向推送数据的技术，基于 HTTP 协议。和 WebSocket 的主要区别：

对比项	SSE	WebSocket
通信方向	单向（服务端→客户端）	双向
协议	HTTP	独立的 WebSocket 协议
连接	普通 HTTP 连接	需要协议升级握手
数据格式	纯文本	文本或二进制
断线重连	浏览器自动重连	需要自己实现
兼容性	几乎所有浏览器	部分老浏览器不支持

我们选择 SSE 的原因有三个，第一个是场景匹配：大模型输出是服务端单向推给前端，不需要双向通信；第二个是简单：不需要额外的协议，nginx 也好配置。

SSE 的数据格式：

2. 你是怎么用 Spring Boot 实现 SSE 接口的？

考察点：SseEmitter 使用

参考答案：

Spring Boot 提供了 SseEmitter 类来实现 SSE。基本用法：

@GetMapping(value = "/stream", produces = MediaType.TEXT_EVENT_STREAM_VALUE)
public SseEmitter stream() {
    SseEmitter emitter = new SseEmitter(60000L); // 60秒超时

    // 异步执行，发送数据
    executor.execute(() -> {
        try {
            for (int i = 0; i  {
    log.info("SSE connection completed");
    cleanup(request.getSessionId());
});

// 超时回调
emitter.onTimeout(() -> {
    log.warn("SSE connection timeout");
    emitter.complete();
});

// 异常回调
emitter.onError(e -> {
    log.error("SSE error", e);
    cleanup(request.getSessionId());
});

第四，有些代理服务器会断开长时间没数据的连接，所以要定期发心跳，每 15 秒发一个注释消息（comment 不会被前端 onmessage 接收），保持连接活跃。

ScheduledExecutorService scheduler = Executors.newScheduledThreadPool(1);
scheduler.scheduleAtFixedRate(() -> {
    try {
        emitter.send(SseEmitter.event().comment("heartbeat"));
    } catch (IOException e) {
        scheduler.shutdown();
    }
}, 15, 15, TimeUnit.SECONDS);

在 PaiFlow 里，Hub 服务接收前端请求，通过 HTTP 调用 Workflow 引擎，Workflow 引擎返回的也是 SSE 流。Hub 层做的事情是：从 Workflow 读一个 chunk，立刻转发给前端一个 chunk，实现端到端的流式体验。

// 转发上游的 SSE 流
webClient.post()
    .uri(workflowUrl)
    .bodyValue(request)
    .retrieve()
    .bodyToFlux(String.class)
    .subscribe(
        chunk -> emitter.send(chunk),
        error -> emitter.completeWithError(error),
        () -> emitter.complete()
    );

3. SseEmitter 的超时时间怎么设置？如果连接断开了怎么处理？

考察点：超时处理、异常处理

参考答案：

我们设置的是 5 分钟，因为有些工作流执行时间比较长。

// 构造时设置，单位毫秒
SseEmitter emitter = new SseEmitter(60000L); // 60秒

// 或者设置为 0 表示不超时（不推荐，会占用连接）
SseEmitter emitter = new SseEmitter(0L);

连接断开处理：

SseEmitter emitter = new SseEmitter(300000L);

// 客户端断开连接时的回调
emitter.onCompletion(() -> {
    log.info("SSE 连接正常结束");
    // 清理资源
});

// 超时回调
emitter.onTimeout(() -> {
    log.warn("SSE 连接超时");
    emitter.complete();
});

// 错误回调
emitter.onError(ex -> {
    log.error("SSE 连接异常", ex);
    // 停止工作流执行
});

在发送数据时也要做异常处理：

try {
    emitter.send(data);
} catch (IOException e) {
    // 客户端已断开，停止发送
    log.warn("客户端已断开连接");
}

参考答案版本 2：

我们做 LLM 流式输出，生成一篇长文章可能要两三分钟，但也不能设太长。我们一般设 5 到 10 分钟，既能覆盖大部分正常请求，又不会让异常连接占用太久资源。

连接断开有几种情况，每种都要处理。

第一种是正常完成，数据发完了，服务端主动调用 emitter.complete() 关闭连接。这时候会触发 onCompletion 回调。

第二种是超时，超过了设置的时间还没完成，会触发 onTimeout 回调。这时候应该主动关闭连接，清理资源。

第三种是客户端主动断开，这是最常见的情况——用户刷新页面、关闭浏览器标签页、或者网络波动。这时候再往 emitter 里发数据会抛 IOException，会触发 onError 回调。

处理这些情况的思路是：三个回调都要注册，都要做资源清理。

emitter.onCompletion(() -> cleanupResources(sessionId));
emitter.onTimeout(() -> cleanupResources(sessionId));
emitter.onError(e -> cleanupResources(sessionId));

但光注册回调还不够，还有一个关键问题：异步线程可能还在往 emitter 里发数据，这时候连接已经断了，会报错。

所以我会用一个 AtomicBoolean 标记位来记录连接状态。三个回调里都把它设成 false，发送数据之前先检查这个标记，如果已经断开了就不发了，直接停止后续逻辑。

AtomicBoolean connected = new AtomicBoolean(true);

// 回调里标记断开
emitter.onError(e -> {
    connected.set(false);
    cleanupResources(sessionId);
});

// 发送前检查
if (connected.get()) {
    emitter.send(data);
}

还有一点很重要：客户端断开后，要通知上游停止工作。

// 用原子变量标记连接状态
AtomicBoolean connected = new AtomicBoolean(true);

emitter.onCompletion(() -> {
    connected.set(false);
    cleanupResources(sessionId);
});

emitter.onTimeout(() -> {
    connected.set(false);
    cleanupResources(sessionId);
});

emitter.onError(e -> {
    connected.set(false);
    cleanupResources(sessionId);
});

// 异步发送数据时，先检查连接状态
CompletableFuture.runAsync(() -> {
    try {
        workflowService.executeStream(request, chunk -> {
            // 发送前检查连接是否还在
            if (!connected.get()) {
                throw new ClientDisconnectedException("客户端已断开");
            }

            try {
                emitter.send(SseEmitter.event()
                    .id(String.valueOf(System.currentTimeMillis()))
                    .name("message")
                    .data(chunk, MediaType.APPLICATION_JSON));
            } catch (IOException e) {
                connected.set(false);
                throw new ClientDisconnectedException("发送失败", e);
            }
        });

        // 正常完成
        if (connected.get()) {
            emitter.complete();
        }
    } catch (ClientDisconnectedException e) {
        log.info("客户端断开，停止生成: {}", sessionId);
        // 关键：通知上游停止工作
        workflowService.cancelExecution(sessionId);
    } catch (Exception e) {
        if (connected.get()) {
            emitter.completeWithError(e);
        }
    }
});

比如用户问了一个问题，LLM 正在生成回答，用户突然关掉页面不想要了。如果不做处理，LLM 还会傻傻地继续生成，白白消耗算力。检测到客户端断开后，我会调用工作流引擎的取消接口，让它停止当前任务。

最后说一下心跳保活。

有些代理服务器或者负载均衡器，如果一段时间没有数据传输，会认为连接已经死了，主动断开。LLM 生成比较慢的时候，可能十几秒才出一个字，这段时间连接可能被中间件掐掉。

解决办法是定期发心跳。SSE 协议支持发送注释消息，客户端的 onmessage 不会收到，但能保持连接活跃。我一般每 15 到 20 秒发一次心跳，确保连接不会被中间件误杀。

// 创建心跳定时任务
ScheduledExecutorService scheduler = Executors.newSingleThreadScheduledExecutor();
ScheduledFuture heartbeat = scheduler.scheduleAtFixedRate(() -> {
    if (connected.get()) {
        try {
            // 发送注释消息作为心跳，客户端不会收到
            emitter.send(SseEmitter.event().comment("heartbeat"));
        } catch (IOException e) {
            connected.set(false);
        }
    }
}, 15, 15, TimeUnit.SECONDS);  // 每15秒发一次

// 连接关闭时取消心跳任务
emitter.onCompletion(() -> {
    heartbeat.cancel(true);
    connected.set(false);
    cleanupResources(sessionId);
});

4. 你说"首字响应延迟优化至 200ms 以内"，是怎么做到的？

考察点：性能优化

参考答案：

首字响应延迟是指从用户发送请求到看到第一个字的时间。优化的关键是减少各环节的等待时间。

具体做的优化：

1. 流式调用大模型 API，不等大模型全部生成完，而是用流式接口，生成一点返回一点：

chatModel.stream(prompt).subscribe(response -> {
    // 有数据就立即推送
    callback.onNodeProcess(token);
});

2. 减少节点调度开销，节点执行前的参数解析、日志记录这些操作尽量轻。

3. 连接复用，用 OkHttp 的连接池，避免每次都重新建立 TCP 连接和 SSL 握手。

4. 异步化非关键路径，比如日志落库、metrics 上报这些不影响主流程的操作，异步执行。

测量方式是在关键节点打时间戳：

long start = System.currentTimeMillis();
// 第一个 token 到达
long firstTokenTime = System.currentTimeMillis() - start;
log.info("首字延迟: {}ms", firstTokenTime);

参考答案版本 2：

首字响应延迟，英文叫 Time to First Token（TTFT），就是用户发出问题到看到第一个字的时间。这个指标对用户体验特别重要，哪怕后面生成得再快，如果开头要等两三秒，用户就会觉得"卡"。

我们最初测下来首字延迟大概在 800ms 到 1 秒左右，优化后稳定在 200ms 以内。主要从几个方面入手。

第一，分析延迟瓶颈在哪。首先要知道时间花在哪了。我们在链路上打了埋点，拆解出每个环节的耗时：

用户请求 → 前端处理(~20ms) → 网络传输(~30ms) → Hub接收处理(~50ms)
→ 调用Workflow(~100ms) → Workflow启动执行(~200ms) → 调用LLM(~400ms) → 首字返回

发现大头在三个地方：Hub 到 Workflow 的 HTTP 调用、Workflow 内部启动、LLM 服务响应。

第二，HTTP 连接池复用。每次请求都新建 TCP 连接很慢，三次握手就要几十毫秒。我们用连接池复用已有连接。Hub 调用 Workflow 用的是 WebClient，配置了连接池：

@Configuration
public class WebClientConfig {

    @Bean
    public WebClient workflowWebClient() {
        // 配置连接池
        ConnectionProvider provider = ConnectionProvider.builder("workflow-pool")
            .maxConnections(100)     ...

5人已点赞

29 条评论

ztg 2026年04月15日 13:56

根本问题只有一个：LLM 的每个 chunk 回调，是被多个线程并发处理的，还是单线程顺序处理的？@派聪明

过时的草莓 2026年04月08日 19:26

引用原文：心跳机制

心跳机制怎么实现的？@派聪明

昏睡的吐司 2026年04月07日 17:14

@派聪明第五，LLM 调用优化。LLM 服务响应是最大的延迟来源。要尽量减少 prompt 长度，提供 Skills 这些技术给 LLM，以减少 prompt 长度。另外，我们对历史对话也做了截断和压缩：你这里说的skills是什么

豆大点事儿 2026年04月07日 15:02

引用原文：我们选择 SSE 的原因有三个，第一个是场景匹配：大模型输出是服务端单向推给前端，不需要双向通信；第二个是简单：不需要额外的协议，nginx 也好配置。

第三个原因呢？

回复1 取消回复

@派聪明

昏睡的吐司 2026年04月05日 21:25

@派聪明 SSE返回前端的json数据，每个字段解释一下

Ψ 2026年03月29日 18:46

引用原文：多线程处理消息

@派聪明，不是一个工作流对应一个sseEmitter和一个队列吗？为什么会发生乱序，又是哪里会大现场处理消息

派聪明 2026年03月29日 18:47

在SSE实现中，虽然通常是一个工作流对应一个SseEmitter和一个队列，但仍然会发生乱序，原因如下： ### 为什么会乱序？ 1. **工作流内部并行执行**： - 一个工作流可能包含多个节点（如LLM节点、工具调用节点等） - 这些节点可能并行执行，产生消息的顺序与最终展示顺序不一致 2. **异步处理线程**： - LLM节点的流式输出是异步的 - 处理线程和发送线程不是同一个，可能导致消息处理顺序与发送顺序不一致 3. **消息合并与拆分**： - 需要将多个小的token合并成完整句子 - 或将大消息拆分成多个片段发送 - 这个过程如果处理不当会导致顺序混乱 ### 哪里会多线程处理消息？ 1. **工作流引擎**： - 有多个工作线程同时处理不同节点 - 节点执行完成后产生消息，可能不是按顺序提交 2. **消息队列处理**： - 可能有多个消费者线程从队列中获取消息 - 不同线程处理速度不同，导致出队顺序与入队顺序不一致 3. **LLM服务调用**： - 多个LLM调用可能并行进行 - 返回结果的顺序可能与调用顺序不一致 4. **SSE发送线程**： - 如果使用线程池发送消息，不同线程处理速度不同 ### 双队列架构解决方案： ``` // 队列1：数据流队列，存放原始消息 private final Queue streamQueue; // 队列2：排序队列，存放待发送的有序消息 private final Queue orderStreamResultQ; // 消费者线程专门负责排序和发送 private final Thread consumerThread; ``` 工作流程： 1. 各节点产生的消息先进入streamQueue 2. consumerThread从streamQueue取消息，按序号排序 3. 排序后的消息放入orderStreamResultQ 4. 按顺序从orderStreamResultQ取消息发送这样即使上游是多线程产生消息，也能保证发送给客户端的消息有序。

Ψ 2026年03月26日 17:57

引用原文：从 streamQueue 取消息根据消息类型和序号做排序

@派聪明，这也有问题啊，如果A的消息还没被发完了，但是队列里面现在是B的消息在队头，发送了B的消息，此时A的新消息才入队，这时候不就乱序了吗

派聪明 2026年03月26日 17:58

您提出了一个很好的问题！这确实是双队列架构中需要特别注意的地方。您描述的情况确实可能发生：如果消息A（序号1）还在处理中，但消息B（序号2）已经入队并处于队头，此时可能会先发送B，而A的新消息（序号3）才入队，导致顺序混乱。 **解决方案**： 1. **严格按序号处理**：消费者线程必须确保按序号从小到大处理消息，即使队列中有更高序号的消息。 2. **序号检查机制**： ```java // 消费者线程逻辑 long expectedSequence = 1; while (!finished) { // 只检查期望序号的消息 LLMGenerate token = streamQueue.peek(); if (token != null && token.getSequence() == expectedSequence) { token = streamQueue.poll(); // 处理并放入排序队列 processAndOrder(token); expectedSequence++; } else { // 没有期望序号的消息，等待或处理其他任务 Thread.sleep(100); } } ``` 3. **批量处理**：对同一序号的消息进行批量处理，确保同一序号的所有片段都处理完成后再处理下一个序号。 4. **发送前验证**：在从排序队列取消息发送前，再次验证序号是否连续。这样可以确保即使有乱序到达的消息，也能严格按照序号顺序处理和发送，避免您提到的乱序问题。

Ψ 2026年03月26日 17:48

引用原文：这是我们遇到的一个坑：多线程往 SseEmitter 写数据，前端收到的顺序可能是乱的。

@派聪明，不是每个workflow都是对应一个SSeEmitter吗？为什么会乱序

派聪明 2026年03月26日 17:49

即使每个workflow对应一个SseEmitter，仍然可能出现消息乱序问题，原因如下： **多线程写入**：一个workflow执行过程中，可能有多个线程同时向同一个SseEmitter写入数据： - LLM节点生成输出 - 日志节点记录信息 - 状态节点更新进度 - 其他节点异步处理结果这些线程在不同时间点向同一个SseEmitter发送数据，但由于线程调度的不可预测性，前端接收到的消息顺序可能与原始发送顺序不一致。 **异步处理延迟**：即使是一个线程发送，如果异步处理过程中消息生成速度很快，也可能导致消息在发送队列中乱序。 **消息合并与分割**：服务端可能会将多个小消息合并或大消息分割，这种处理可能改变原始顺序。 **缓冲问题**：SseEmitter内部可能有缓冲机制，多个线程同时写入时，缓冲区的处理顺序可能与写入顺序不一致。这就是为什么参考资料中提到需要使用"双队列架构"来确保消息有序性：一个队列接收原始消息，另一个队列按序号排序后发送，保证前端收到的消息一定是按正确顺序排列的。

Ψ 2026年03月26日 17:01

引用原文：排查下来发现是接收和发送耦合在一起

@派聪明，什么叫接收和发送耦合在一起，paiflow不就是事件回调的时候把消息发送到队列里，然后有个发送线程阻塞循调用ｓｓｅＥｍｉｔｔｅｒｍ．ｓｅｎｔ()发送消息吗?

回复2 取消回复

派聪明 2026年03月26日 17:03

在PaiFlow中，"接收和发送耦合在一起"指的是最初的单队列架构存在设计缺陷。让我解释一下： ### 单队列架构的问题你提到的"事件回调把消息发送到队列，发送线程阻塞循环发送"确实是PaiFlow最初的实现方式，但这种设计有几个关键问题： 1. **消息乱序**：大模型返回的token是有序的，但处理线程和发送线程不是同一个，可能导致后来的消息先处理完先发送出去，前端看到的文字顺序错乱。 2. **丢包风险**：当接收速度远大于发送速度时，队列可能堆积满，新消息就无法入队，导致数据丢失。 3. **缺乏容错机制**：发送失败时没有重试机制，消息直接丢失。 ### 双队列架构的改进后来PaiFlow引入了双队列架构来解决这些问题： ``` 上游数据 → 接收队列 → 处理层(排序/去重) → 发送队列 → 前端 ``` **接收队列**：专门负责快速接收上游数据，不做复杂处理 **发送队列**：存放已经排序、去重后的消息，由发送线程按顺序发送这种设计将接收和发送完全解耦： - 接收端可以快速接收数据，不用担心处理速度 - 发送端只关心有序消息的发送，不用担心数据来源 - 中间的处理层负责序号校验、排序、丢包检测等复杂逻辑所以"耦合在一起"指的是最初单队列架构中接收、处理和发送逻辑混合在一起，而双队列架构通过两个独立队列将这些功能分离，提高了系统的稳定性和可靠性。

展开剩余 1 条回复

Je 2026年03月25日 13:54

引用原文：所以我会用一个 AtomicBoolean 标记位来记录连接状态。三个回调里都把它设成 false，发送数据之前先检查这个标记，如果已经断开了就不发了，直接停止后续逻辑。

@派聪明这部分功能在哪个类中有体现？

派聪明 2026年03月25日 13:54

这段功能主要在 **WorkflowMsgCallback** 类中有体现，特别是在处理 SSE 流式响应时的连接管理和资源释放部分。在参考资料中，这个功能被用来解决客户端断开连接时的资源管理问题： 1. **AtomicBoolean 标记位的作用**： - 使用 `AtomicBoolean connected` 变量记录连接状态 - 在三个回调（onCompletion、onTimeout、onError）中都将标记设为 false - 发送数据前先检查该标记，如果已断开就停止发送 2. **在 WorkflowMsgCallback 中的实现**： ```java // 核心代码片段 AtomicBoolean connected = new AtomicBoolean(true); // 回调里标记断开 emitter.onError(e -> { connected.set(false); cleanupResources(sessionId); }); // 发送前检查 if (connected.get()) { emitter.send(data); } ``` 3. **解决的问题**： - 防止在连接已断开时继续发送数据导致异常 - 确保资源能及时释放，避免内存泄漏 - 避免无效计算（如 LLM 继续生成内容）这个设计是双队列架构（参考第6点）中的重要组成部分，确保了在连接断开时能优雅地停止整个处理流程，并通知上游停止工作流执行，节省计算资源。

✅SSE面试题预测：SSE 与WebSocket区别详解

1. 什么是 SSE（Server-Sent Events）？和 WebSocket 有什么区别？

2. 你是怎么用 Spring Boot 实现 SSE 接口的？

3. SseEmitter 的超时时间怎么设置？如果连接断开了怎么处理？

参考答案版本 2：

4. 你说"首字响应延迟优化至 200ms 以内"，是怎么做到的？

参考答案版本 2：

热门评论

29 条评论

目录

划线评论