企业级AI Agent工作流编排项目的工作流引擎是如何设计和完成的？

在完成 DSL 的生成和解析之后，真正困难的才刚刚开始。DSL 只是描述了“流程长什么样子”，但一个工作流引擎的真正价值，不在于能不能把流程画出来，而在于：这个流程如何被一步一步、安全可控地执行。

工作流在执行过程中，往往伴随着输入参数的初始化、上下文的传递、状态的流转、异常的处理、以及执行结果的回传等。我画了一张图，可以清晰地概括出工作流的执行机制。

首先，执行引擎要将复杂的流程拆解为可独立执行的最小单元。每一个节点都应该是一个完整、自治的执行单元，节点之间不直接相互调用。这种设计可以避免流程复杂后出现强耦合的问题。

其次，提供统一且透明的数据传递能力。节点之间的数据依赖通过 VariablePool 进行管理，节点只关心“我需要哪些输入数据”和“我输出了什么数据”，而不关心这些数据来自哪个节点、在什么顺序下产生。

第三，节点的执行状态可管理。在执行过程中，每个节点都会经历初始化、执行中、执行完成等多个状态，这些状态不仅用于流程推进，也用于异常处理、中断执行等。

最后，也是最重要的一点，为未来的节点扩展预留足够的扩展空间。无论是新增 LLM 节点、插件节点，还是引入更复杂的控制节点（如条件分支、并行节点），都不应该影响现有的执行逻辑。因此，节点执行机制必须以接口和抽象类为核心，确保新节点只关注自身业务实现，而无需侵入执行引擎本身。

从整体上看，节点执行机制的组件架构可以分为四层。

最上层是 WorkflowDSL，它负责描述“流程是什么样的”，不关心“流程如何执行”。DSL 只定义节点、连线和输入输出规则，本身不参与任何执行逻辑。

中间层是 WorkflowEngine，也就是执行中枢，负责执行链路的调度、节点关系的依赖，以及执行状态的控制。

节点的具体执行能力，则由 **NodeExecutor **来承担。通过统一的 NodeExecutor 接口和 AbstractNodeExecutor 抽象基类，不同类型的节点（如 LLM 节点、插件节点、起始节点、结束节点）可以被统一的方式调度，同时又保留各自的差异。这种设计使得新增节点类型时，只需扩展执行器，而无需修改执行引擎本身。

所有节点都必须实现统一的 NodeExecutor 接口，用于约束节点的执行入口和生命周期。在接口之上，引入 AbstractNodeExecutor 作为抽象基类，统一承载节点执行过程中的通用逻辑。例如执行前的上下文准备、执行状态的变更、异常捕获以及执行结果的回传等。

通过模板方法模式，节点的业务差异，则由子类实现。不同类型的节点，如起始节点、LLM 节点、插件节点，本质上只是“执行策略”的不同体现。

贯穿整个执行过程的数据流转，则由 VariablePool 统一管理。所有节点的输入和输出，都围绕 VariablePool 展开。

private void initializeStartNodeInputs(Node startNode, VariablePool variablePool, Map inputs) {
    for (Map.Entry entry : inputs.entrySet()) {
        variablePool.set(startNode.getId(), entry.getKey(), entry.getValue());
        if (log.isDebugEnabled()) {
            log.debug("Initialized start node input: {}.{} = {}", startNode.getId(), entry.getKey(), entry.getValue());
        }
    }
}

之所以采用这样的设计，原因在于工作流执行并不是线性的调用链，而是一个可能存在分支、回退、并行与中断的执行过程。

节点在执行时只需要声明自己依赖哪些输入变量，以及会产出哪些输出变量。通过 {nodeId}.{outputName} 这种明确的引用格式，节点不仅可以访问前置节点的执行结果，还可以避免直接持有对象引用带来的耦合问题。

VariablePool 的第一层以节点 ID 作为命名空间，用于区分不同节点的输出数据；第二层以输出变量名作为 Key，存储节点执行过程中产生的具体结果值。

在 DSL 层面，节点的输入输出通过 inputs 和 outputs 进行声明。当 WorkflowEngine 决定执行某一个节点时，会首先进入输入构建阶段。在这一阶段，引擎会根据 DSL 中的输入定义，逐一解析每一个输入字段：

如果输入值是一个字面量，则直接作为静态参数注入；
如果输入值是形如 {nodeId}.{outputName} 的引用表达式，则会从 VariablePool 中查找对应节点的输出结果；
如果输入字段声明了 schema 约束，则在注入前完成必要的类型校验与结构校验。

在节点执行完成后，输出结果同样会被统一处理。NodeExecutor 只需返回执行结果，WorkflowEngine 会根据 outputs 定义，将结果写入 VariablePool 中对应的节点命名空间下，供后续节点使用。

执行过程中产生的结果和状态变化，会通过 StreamCallback 进行实时回传，用于前端展示、日志追踪等。

节点只需要在合适的时机触发回调，至于结果如何被展示、记录或推送给外部系统，则完全由回调方法决定。

1.执行引擎WorkflowEngine

在 PaiFlow 中，工作流的执行入口由执行引擎 WorkflowEngine 的 execute 方法统一驱动。包括执行前的校验、上下文初始化、执行链构建、节点调度、状态回传，以及最终的资源回收等。

从生命周期的角度来看，一次完整的工作流执行，大致可以分为三个阶段：

第一阶段，是执行前准备。包括 DSL 的合法校验、上下文的初始化。

第二阶段，是工作流执行。执行引擎会从起始节点开始，按照节点之间的依赖关系，逐步推进节点执行。Java 版的节点执行器会返回不同的状态码，例如，当节点返回成功状态时，引擎会继续调度下一个节点；当节点返回可重试状态时，引擎会根据配置决定是否进行重试；当节点返回中断或失败状态时，引擎则会中止当前执行链路，或者进入失败分支处理逻辑。

为了保证并发执行场景下的状态一致性，Java 版工作流引擎通过 EngineContextHolder 在整个工作流执行过程中传递和访问执行上下文信息。

内部封装的TransmittableThreadLocal能确保每个工作流执行过程中都有独立的上下文环境。假如没有 EngineContextHolder，工作流在执行的过程中需要一直传递 callback。

WorkflowEngine.execute(dsl, inputs, callback)
  -> LlmNodeExecutor.execute(node, variablePool, callback)
    -> ModelServiceClient.chat(request, callback)
      -> SomeInternalHelper.prepareData(data, callback)
        -> callback.onMessage(...) // 终于，发送了一条消息

为什么不用 ThreadLocal 呢？因为标准的 ThreadLocal 在线程池环境下无法正常工作。当一个任务被提交到线程池时，执行该任务的子线程不会继承提交任务的父线程的 ThreadLocal 值。 TransmittableThreadLocal (TTL) 通过自动将上下文从父线程拷贝到子线程解决了这个问题。

// 主线程设置上下文
EngineContextHolder.initContext(flowId, chatId, callback);

// 异步线程执行（线程池中的线程）
AsyncUtil.execute(() -> {
    // ❌ 获取不到上下文！普通 ThreadLocal 无法跨线程传递
    EngineContext ctx = EngineContextHolder.get();  // null!
    String chatId = ctx.getChatId();  // NullPointerException!
});

// 主线程设置
EngineContextHolder.initContext(flowId, chatId, callback);

// 异步线程（TTL 自动复制上下文）
AsyncUtil.execute(() -> {
   // ✅ 可以正常获取！
   String chatId = EngineContextHolder.get().getChatId();
   String sid = EngineContextHolder.get().getSid();
});

具体来说，EngineContext 内部封装了工作流执行所需的关键信息，包括但不限于：流程ID、会话ID、回调处理器和用于全链路追踪的唯一标识符等。这些信息在工作流执行的生命周期内始终保持一致，并作为引擎调度和回调的基础数据供上下文使用。

在通知机制上，Java 版工作流引擎采用了观察者模式来解耦执行逻辑与回调逻辑。在WorkflowEngine中，引擎通过WorkflowMsgCallback类实现了StreamCallback接口，当节点开始执行或者执行完成时，引擎会主动触发对应的回调方法，（如onWorkflowStart、onWorkflowEnd）以确保客户端能够实时收到工作流的执行状态。

这种设计使得工作流引擎天然支持流式 Hook，非常适合用于后端主动向前端实时推送消息。在前端，用户会看到工作流正在以动态的流水形式一步步往后推进，非常友好。

从更宏观的角度来看，这一整套设计，正好对应了典型的 C4 架构：用户在前端发起交互请求、Hub 负责系统业务、工作流引擎负责执行与状态管理、MySQL、Redis、MinIO 等基础设施负责数据的持久化。

第三阶段，是收尾处理。无论流程是否正常结束，还是异常中断，执行引擎都需要完成状态回传、消息消费以及上下文清理。

public void execute(WorkflowDSL workflowDSL, VariablePool variablePool, Map inputs, StreamCallback callback) throws Exception {
    log.info("Starting workflow execution with {} nodes", workflowDSL.getNodes().size());

    // 前置校验
    verifyWorkflow(workflowDSL);

    // 清空上下文变量
    variablePool.clear();

    // 创建工作流回调处理器
    Queue orderStreamResultQ = new ConcurrentLinkedQueue<>();
    Queue streamQueue = new ConcurrentLinkedQueue<>();

    Node endNode = workflowDSL.getNodes().stream().filter(s -> s.getNodeType() == NodeTypeEnum.END).findFirst().get();
    String sid = FlowUtil.genWorkflowId(workflowDSL.getFlowId());
    WorkflowStreamCallback workflowCallback = new WorkflowStreamCallback(
            sid,
            callback,
            Objects.equals(endNode.getData().getNodeParam().get("outputMode"), 1) ? EndNodeOutputModeEnum.VARIABLE_MODE : EndNodeOutputModeEnum.DIRECT_MODE,
            streamQueue,
            orderStreamResultQ
    );

    // 初始化上下文
    EngineContextHolder.initContext(workflowDSL.getFlowId(), workflowDSL.getUuid(), workflowCallback);

    // 发送工作流开始事件
    workflowCallback.onSparkflowStart();

    try {
        // 构建从起始节点开始的执行链...

19人已点赞

46 条评论

秋刀鱼的滋味 2026年05月22日 00:22

这个工作流的话每个节点是怎么知道它要执行或者它该执行的，这个是怎么实现的

XWQ 2026年04月20日 17:15

引用原文：所有节点都必须实现统一的 NodeExecutor 接口，用于约束节点的执行入口和生命周期

@派聪明 python也可以实现吗

Cunese 2026年04月11日 21:59

引用原文：这种设计使得工作流引擎天然支持流式 Hook，非常适合用于后端主动向前端实时推送消息。在前端，用户会看到工作流正在以动态的流水形式一步步往后推进，非常友好。

@派聪明这里后端主dongxiang前端发送消息使用的是什么通信协议呢，websocket嘛

回复1 取消回复

何人听我楚狂声 2026年04月18日 17:01

通过 SSE 推送的消息

无怀 2026年04月08日 22:06

引用原文：无论是新增 LLM 节点、插件节点，还是引入更复杂的控制节点（如条件分支、并行节点），都不应该影响现有的执行逻辑

这一点如何解释@派聪明

无怀 2026年04月08日 22:10

1. 核心设计思路定义统一的节点接口（Node Interface）：给所有节点制定一套标准的「契约」，比如： java 运行 // 伪代码：统一节点接口 public interface WorkflowNode { // 节点执行方法：输入上下文，输出新的上下文 NodeContext execute(NodeContext context) throws Exception; // 节点校验方法：执行前校验参数合法性 void validate(NodeContext context) throws ValidationException; // 获取节点类型：用于引擎识别 String getNodeType(); } 抽象类封装通用逻辑：用抽象类实现接口的通用方法（比如日志、异常处理、上下文传递），具体节点只需要继承抽象类，实现业务逻辑即可。执行引擎只依赖接口：引擎的调度逻辑（比如「按顺序执行节点」「处理分支跳转」）只和WorkflowNode接koujiao互，完全不关心具体是哪个节点的实现。 2. 效果：完美解耦对新节点开发者：只需要实现WorkflowNode接口，写自己的业务逻辑（比如 LLM 节点调用大模型、插件节点调用第三方 API），完全不需要懂执行引擎的内部逻辑，也不会修改引擎代码。对执行引擎：只需要通过接口调用execute()方法，不管节点类型怎么变，调度逻辑永远不变，彻底避免了「新增节点改引擎」的问题。对现有流程：因为引擎逻辑没改，旧节点的实现也没改，所以执行逻辑 100% 不受影响。 3. 控制节点的特殊处理对于条件分支、并行这类控制节点，同样遵循这个原则：控制节点也实现统一的WorkflowNode接口，只是它的execute()方法内部，会调度子节点的执行；引擎只需要调用控制节点的execute()，完全不关心它内部是分支、并行还是循环，实现了「控制逻辑的扩展不影响引擎」。

一代天骄 2026年03月31日 16:12

引用原文：节点的具体执行能力，则由 **NodeExecutor **来承担。通过统一的 NodeExecutor 接口和 AbstractNodeExecutor 抽象基类，不同类型的节点（如 LLM 节点、插件节点、起始节点、结束节点）可以被统一的方式调度，同时又保留各自的差异。这种设计使得新增节点类型时，只需扩展执行器，而无需修改执行引擎本身。

@派聪明这里面使用到了什么设计模式

派聪明 2026年03月31日 16:15

这段文本中主要使用了两种设计模式： ### 1. **模板方法模式（Template Method Pattern）** - **实现方式**：通过 `AbstractNodeExecutor` 抽象基类定义节点执行的骨架流程（如输入解析、执行、输出存储），而将具体业务逻辑（如 `executeNode()`）延迟到子类实现。 - **作用**： - 统一节点执行的生命周期（初始化、执行、回调、异常处理）。 - 子类（如 `LLMNodeExecutor`、`PluginNodeExecutor`）只需实现业务逻辑，无需重复框架代码。 - 符合 **开闭原则**：扩展新节点类型时无需修改执行引擎。 ### 2. **策略模式（Strategy Pattern）** - **实现方式**：通过 `NodeExecutor` 接口定义统一的执行契约，不同节点类型（LLM、插件等）实现该接口，形成可替换的执行策略。 - **作用**： - 解耦节点类型与执行引擎：引擎通过接口调度节点，无需关心具体实现。 - 支持动态切换节点行为（如运行时选择不同执行策略）。 - 便于扩展：新增节点只需实现 `NodeExecutor` 接口，无需修改引擎逻辑。 ### 其他隐含设计原则 - **开闭原则（OCP）**：系统对扩展开放（新增节点类型），对修改关闭（无需修改引擎）。 - **依赖倒置原则（DIP）**：高层模块（执行引擎）依赖抽象接口（`NodeExecutor`），而非具体实现。 ### 总结该设计通过 **模板方法模式** 统一节点执行流程，结合 **策略模式** 实现节点类型的灵活扩展，最终构建了一个低耦合、高可扩展的工作流执行引擎。

小时月 2026年03月25日 10:49

引用原文：工作流执行并不是线性的调用链，而是一个可能存在分支、回退、并行与中断的执行过程

@派聪明

派聪明 2026年03月25日 10:50

工作流执行确实不是简单的线性调用链，而是包含多种复杂执行模式的过程。根据参考资料，这种复杂性体现在： 1. **分支与条件执行**：工作流可能根据节点执行结果选择不同路径，如正常分支或异常分支处理。 2. **并行执行**：多个节点可以同时执行，不依赖严格的前后顺序，提高流程效率。 3. **中断与回退**：节点执行可能因异常或条件不满足而中断，流程可能回退到特定节点重新执行。 4. **状态管理**：每个节点经历初始化、执行中、完成等状态，这些状态不仅用于流程推进，也用于异常处理。这种复杂性的实现依赖于几个关键设计： - 将流程拆解为自治的节点单元，避免强耦合 - 通过VariablePool统一管理节点间的数据传递 - 基于节点状态码(成功、可重试、中断等)决定流程走向 - 使用执行引擎调度节点关系，控制执行状态这种设计使工作流能够灵活应对各种业务场景，而非局限于简单的线性执行模式。

QiQ 2026年03月24日 17:20

引用原文：VariablePool的生命周期

工作流执行完，变量池要不要回收，如果要的话在哪里回收？@派聪明

派聪明 2026年03月24日 17:20

工作流执行完成后，VariablePool不需要显式回收，因为它是作为局部变量在WorkflowEngine.execute方法中创建的，当方法执行结束后，它会自动被垃圾回收器回收。但在工作流执行开始时，会调用variablePool.clear()清空变量池内容，这是在WorkflowEngine.execute方法中完成的： ```java public void execute(WorkflowDSL workflowDSL, VariablePool variablePool, Map inputs, StreamCallback callback) throws Exception { // 清空上下文变量 variablePool.clear(); // ... 其他执行逻辑 finally { // 消费所有的消息 workflowCallback.finshed(); // 移除上下文信息 EngineContextHolder.remove(); } } ``` 这种设计确保每次工作流执行都有独立的VariablePool实例，避免数据污染，同时利用Java的垃圾回收机制自动处理内存回收。

QiQ 2026年03月24日 15:26

引用原文：错误重试

没有错误重试的逻辑，对于每个节点执行的结果是在executeNode里面判断的，是走正常分支还是走异常分支。

xiaosa 2026年03月22日 17:08

@派聪明上一个节点的状态信息是怎么传递给下一个节点执行的，需要VariablePool 管理吗

派聪明 2026年03月22日 17:09

在工作流引擎中，上一个节点的状态信息通过 **VariablePool（变量池）** 管理并传递给下一个节点执行，具体机制如下： --- ### **1. 数据传递的核心：VariablePool** - **作用**： VariablePool 是全局数据存储中心，每个节点执行后产生的输出结果（状态信息）会存入变量池，供后续节点引用。 - **存储结构**： ```plaintext VariablePool = { "节点ID": { "输出变量名": 值 } } ``` 例如： ```plaintext { "node-llm::002": { "llm_output": "播客脚本内容..." } } ``` --- ### **2. 节点间数据传递流程** 1. **节点执行完成**：上游节点（如LLM节点）执行后，将输出结果写入 VariablePool： ```java variablePool.set("node-llm::002", "llm_output", "播客脚本内容..."); ``` 2. **下游节点解析输入**：下游节点（如TTS节点）在执行前，通过 `resolveInputs()` 方法从 VariablePool 读取依赖的数据： ```java // 节点输入配置：{"text": "{{node-llm::002.llm_output}}"} String script = (String) variablePool.get("node-llm::002", "llm_output"); ``` 3. **数据注入到节点**：解析后的数据作为输入传递给节点执行器： ```java Map resolvedInputs = resolveInputs(node, variablePool); NodeRunResult result = executor.execute(nodeState, resolvedInputs); ``` --- ### **3. 为什么必须用 VariablePool？** - **解耦设计**：节点无需知道上游节点的具体实现，只需声明输入依赖（如 `{{node-id.output-name}}`），VariablePool 自动完成数据匹配。 - **复杂对象支持**：自动将对象转为 `JSONObject`，支持嵌套访问（如 `response.content`）和数组索引（如 `segments[0].text`）。 - **状态一致性**：在分支、并行、回退等复杂流程中，VariablePool 确保数据在不同执行路径中正确传递。 - **扩展性**：新增节点只需声明输入依赖，无需修改现有执行逻辑。 --- ### **4. 替代方案对比** | 方案 | 缺点 | |--------------------|----------------------------------------------------------------------| | **直接节点调用** | 强耦合，无法支持分支/并行流程，新增节点需修改上游节点代码。 | | **全局共享状态** | 数据污染风险高，难以追踪数据来源，不适合复杂业务场景。 | | **VariablePool** | ✅ 解耦、支持复杂对象、可扩展、适应任意流程拓扑。 | --- ### **结论** **必须使用 VariablePool 管理节点状态传递**。它通过统一的变量存储和引用机制，实现节点间的数据解耦，支持复杂流程的数据流转，是工作流引擎的核心设计。

Second to nO* 2026年03月21日 16:56

@派聪明 CachedThreadPool+TTL+synchronized+AtomicInteger+CompletableFuture，实现了复杂的并行分支执行逻辑，这部分是怎么实现的，采用这个组合的理由是什么

派聪明 2026年03月21日 16:57

这个组合通过以下方式实现复杂并行分支执行： **实现方式：** 1. CachedThreadPool动态管理线程，根据任务量创建/回收线程，适合大量短任务 2. TTL确保线程池环境下上下文正确传递，解决ThreadLocal在异步场景丢失问题 3. synchronized保护关键代码段，保证共享资源线程安全 4. AtomicInteger实现线程安全计数器，跟踪任务执行状态 5. CompletableFuture编排异步流程，支持allOf/anyOf/thenCombine等组合操作 **采用理由：** 1. **性能优化**：CachedThreadPool避免线程创建/销毁开销，动态适应负载 2. **上下文一致性**：TTL确保工作流执行上下文在异步传递中不丢失 3. **线程安全**：synchronized和AtomicInteger提供不同粒度安全保障 4. **灵活编排**：CompletableFuture支持复杂并行分支逻辑（条件分支、结果聚合） 5. **错误处理**：内置异常处理机制，便于实现错误恢复和结果通知特别适合工作流引擎场景，能够高效处理节点依赖关系、并行执行和错误恢复。

企业级AI Agent工作流编排项目的工作流引擎是如何设计和完成的？

1.执行引擎WorkflowEngine

热门评论

46 条评论

目录

划线评论