✅插件节点执行器：PaiFlow工具节点实现原理

PaiFlow 里的工具节点，说白了就是把外部工具的能力接到工作流里来用。Python 版本是通过 core/plugin 下的 aitools/link 微服务来完成的，工作流执行的时候会拿着 toolId 去调 aitools 微服务/或者 link 微服务，然后路由到具体的工具实现。

aitools 是内置的插件，link 是外部的插件。

比如说我们买了一部手机，会自带相机/计算机等内置的工具，它们相当于 aitools，可直接开箱即用；link 就相当于 app store，或者应用商店，外部的微信/支付宝/抖音这些工具需要先通过应用商店进行管理（增删改查），然后才能使用。

对于 PaiFlow 来说，内置了四个插件，它们是通过 aitools 来提供服务的。

它们在 Python 版的 aitools 中一一对应这些，ocr_llm 是 OCR 工具的实现，image_understanding 是图片理解工具的实现，image_generator 是图片生成工具的实现，speech_synthesis 是超拟人合成工具的实现。

Java 版的工作流我们暂时只实现了超拟人合成节点的内置（第二期我们可以陆续实现图片生成/图片理解/OCR 等内置插件），放在了 plugins/tts 目录下，支持阿里通义千问的 tts（Text-to-Speech）和讯飞的 tts。

当然了，对于工作流来说，每个工具都是一个预设好的独立功能模块，背后不管怎么实现，最终都可以通过 REST API 被调用。因此，这些内置工具也可以通过 link 的形式来实现。当然了，我们还可以通过 link 接入更多第三方的插件。

换句话说，超拟人音频合成工具可以是 aitools，也可以是 link，看我们想要怎么去实现。

在 PaiFlow 中，如果想集成第三方工具，有两个入口。第一个入口是点工具这里的【+】号。

然后进入【新建工具】页，通过填写基本信息、插件信息、验证信息新建一个工具，这种适合你在编排工作流的时候，临时起意想调用一个工具。

还有一种入口是在资源管理这里点击【新建插件】，适合我们提前规划好某个工具，然后在编排工作流的时候直接使用。

仍然是先把一个工具的基本信息填好，再选择请求方法和授权方式，最后做调试校验。工具本身就是一个可被描述、可被验证、可被复用的外部能力。

PaiFlow 除了 Python 版本的 aitools/link 微服务，同样也实现了 Java 版本。插件节点的执行器由 PluginNodeExecutor 类来完成。

为了兼容 Python 版本的 aitools/link，我们在 PluginNodeExecutor 中注入了 PluginServiceClient，由它来负责具体插件的路由。

如果插件的 id 是硬编码的 tool@8b2262bef821000，就调用内置的 tts 工具，内置的 tts 工具又可以根据 ttsSource 来决定是调用讯飞的 tts 还是阿里千问的 tts；否则就通过 AiToolsIntegration 来调用 Python 版或者 Java 版的插件服务，由 application.yml 文件里配置的 aitools-url 来决定。

就目前的 AI 应用开发来说，多语言技术栈已经成为趋势，Python 干得好的地方就用 Python 来干，Java 干得好的地方就由 Java 来干。

PaiFlow 整体就是这样一个架构，hub 作为管理端适合 Java；工作流引擎上先实现了 Python 版本，后实现了 Java 版本，也是为了应对现在的开发趋势。第二期有可能还会追加 Go 语言的技术栈进来，比如说现在很火的一个方向——机器人流程自动化（RPA）就挺适合用 Go 语言来实现。

好，理清楚后，本篇我们重点来讲讲插件节点执行器，插件扩展我们后面会细讲。

1.插件节点执行器的整体设计

PluginNodeExecutor 负责把执行请求交给路由层 PluginServiceClient，PluginServiceClient 再根据插件 ID 或工具类型，把请求分发到对应的集成实现里。

这里我们把集成实现按职责进行了拆分。遇到 TTS 语音合成场景，就走 SmartTTSIntegration，专门处理文本转语音这条链路。遇到通用工具调用，就走 AiToolsIntegration，通过 Python 版或者 Java 版的 aitools 或 link 服务去完成最终的插件执行。

2.PluginNodeExecutor类的说明

PluginNodeExecutor 继承了 AbstractNodeExecutor ，并实现了 executeNode() 这个方法。它不负责具体执行哪个插件，也不关心是内置的 TTS 插件还是其他的第三方工具，它只做两件事：告诉执行引擎自己是 PLUGIN 插件节点执行器，然后把执行请求交给真正干活的 PluginServiceClient。

@Slf4j
@Component
public class PluginNodeExecutor extends AbstractNodeExecutor {
    @Autowired
    private PluginServiceClient pluginServiceClient;

    @Override
    public NodeTypeEnum getNodeType() {
        return NodeTypeEnum.PLUGIN;
    }
}

节点生命周期管理、上下文处理、异常兜底、回调这些通用逻辑都由 AbstractNodeExecutor 兜着。executeNode 方法拿到 nodeState 和 inputs 后，直接调用 pluginServiceClient.toolCall(nodeState, inputs) 拿到 outputs。

@Override
protected NodeRunResult executeNode(NodeState nodeState, Map inputs) throws Exception {
    Map outputs = pluginServiceClient.toolCall(nodeState, inputs);
    NodeRunResult result = new NodeRunResult();
    result.setOutputs(outputs);
    result.setInputs(inputs);
    result.setStatus(NodeExecStatusEnum.SUCCESS);
    return result;
}

也就是说，插件节点到底怎么执行，参数怎么传递，调用链路怎么走，成功失败怎么处理，这些都不管，执行器只负责发起调用并拿结果。

3.PluginServiceClient类的说明

PluginServiceClient 是插件服务的统一入口，负责根据插件类型路由到具体的实现类：

@Slf4j
@Service
public class PluginServiceClient {
    @Autowired
    private AiToolsIntegration aiToolsIntegration;
    @Autowired
    private SmartTTSIntegration smartTTSIntegration;

    public Map toolCall(NodeState nodeState, Map inputs) throws Exception {
        Node node = nodeState.node();
        Map output;
        if (Objects.equals(node.getData().getNodeParam().get("pluginId"), "tool@8b2262bef821000")) {
            // TTS 工具
            output = smartTTSIntegration.call(nodeState, inputs);
        } else {
            output = aiToolsIntegration.call(nodeState, inputs);
        }

        return output;
    }
}

目前支持两种插件类型：

SmartTTSIntegration：专门用于语音合成的服务
AiToolsIntegration：通用的AI工具集成，可以调用各种外部工具

4.SmartTTSIntegration类的说明

SmartTTSIntegration 是一个内置插件，通过调用讯飞星火大模型的语音合成（TTS）服务，将文本转化为高质量的音频文件。

封装了讯飞星火 TTS 服务通信的所有细节，包括复杂的鉴权签名和 WebSocket 实时通信。对应的节点配置如下所示，输入参数有 vcn 也就是发音人的音色，text 也就是引用的文本，由大模型生成，speed 也就是语速，默认 50 为正常值。

输出参数有状态码 code、描述 message、sid 唯一编码、data.voice_url 也就是音频的下载地址等。对应的节点配置如下所示：

{
    "data": {
        "inputs": [
            {
                "id": "239589ef-3815-46d8-b10b-a61eccaeaca3",
                "name...

8人已点赞

热门评论

Ψ 2026年03月11日 14:51

引用原文：如果插件的 id 是硬编码的 tool@8b2262bef821000，就调用内置的 tts 工具，内置的 tts 工具又可以根据 ttsSource 来决定是调用讯飞的 tts 还是阿里千问的 tts；否则就通过 AiToolsIntegration 来调用 Python 版或者 Java 版的插件服务，由 application.yml 文件里配置的 aitools-url 来决定。

@派聪明，这两个有什么区别

回复1 取消回复

派聪明 2026年03月11日 14:54

根据提供的参考资料，PaiFlow 中插件调用的两种机制（硬编码 ID 和普通插件）存在以下核心区别： --- ### 1. **调用路径不同** - **硬编码 ID（`tool@8b2262bef821000`）** 直接调用**内置的 TTS 工具**（如 `SmartTTSIntegration`），无需通过外部服务。 - 示例：工作流执行时，若节点参数中 `pluginId` 为该硬编码值，则直接触发内置 TTS 逻辑。 - 流程：`PluginNodeExecutor` → `PluginServiceClient` → `SmartTTSIntegration` → 讯飞/阿里千问 TTS 服务。 - **普通插件（非硬编码 ID）** 通过 **AiToolsIntegration** 调用外部插件服务（Python/Java 版的 `aitools` 或 `link` 微服务）。 - 示例：自定义工具或第三方工具（如微信、支付宝等）。 - 流程：`PluginNodeExecutor` → `PluginServiceClient` → `AiToolsIntegration` → 外部插件服务（由 `application.yml` 中的 `aitools-url` 指定）。 --- ### 2. **服务来源不同** - **硬编码 ID**：使用**内置服务**（如讯飞 TTS、阿里千问 TTS），由 PaiFlow 直接管理，无需额外配置。 - 内置工具通过 `ttsSource` 参数动态选择底层服务（如讯飞或阿里千问）。 - **普通插件**：依赖**外部服务**（如 Python/Java 版的 `aitools/link` 微服务），需在配置文件中指定服务地址（`aitools-url`）。 - 支持跨语言调用（Python/Java），通过 `Link` 和 `Tool` 类解析 OpenAPI 规范并执行。 --- ### 3. **实现灵活性不同** - **硬编码 ID**： - **固定功能**：仅支持预定义的内置工具（如 TTS），扩展性受限。 - **深度定制**：可直接优化底层逻辑（如 `SmartTTSIntegration` 的 WebSocket 通信、鉴权签名等）。 - **普通插件**： - **高度灵活**：支持任意第三方工具，通过 `+` 号或资源管理器动态添加。 - **标准化接入**：需遵循 OpenAPI 规范，通过 HTTP 请求调用，参数和响应格式标准化。 --- ### 4. **配置与维护** - **硬编码 ID**： - 无需配置服务地址，但需修改代码（如 `PluginServiceClient` 中的硬编码判断逻辑）。 - 内置工具的更新需重新部署代码。 - **普通插件**： - 通过 `application.yml` 配置外部服务地址（`aitools-url`），无需修改代码。 - 插件管理动态化（增删改查通过 UI 操作）。 --- ### 总结对比 | **特性** | **硬编码 ID（内置工具）** | **普通插件（外部工具）** | |------------------|------------------------------------------|--------------------------------------| | **调用路径** | 直接调用内置服务（如 `SmartTTSIntegration`） | 通过 `AiToolsIntegration` 调用外部服务 | | **服务来源** | PaiFlow 内置管理 | Python/Java 微服务（需配置 `aitools-url`） | | **扩展性** | 有限（仅预定义工具） | 高（支持任意第三方工具） | | **配置方式** | 代码硬编码 | 配置文件 + UI 动态管理 | | **适用场景** | 核心工具（如 TTS）需深度优化 | 通用第三方工具（如微信、支付宝等） | 简单来说： - **硬编码 ID** 是为**核心内置工具**设计的快速通道，性能和定制化更强； - **普通插件** 是**标准化扩展机制**，通过配置接入外部服务，灵活性更高。

回复取消回复

9 条评论

一只潜水的猫 2026年04月14日 22:04

引用原文：发音人 vcn 等参数

@派聪明这里这个VCN参数怎么获得

Ψ 2026年03月11日 15:49

引用原文：再写进 ByteArrayOutputStream 这种内存流

@派聪明，为什么要这么做

派聪明 2026年03月11日 15:51

在语音合成（TTS）场景中，将音频数据写入 `ByteArrayOutputStream` 这种内存流，主要是基于以下技术考量： ### 1. **流式数据的临时拼接** - **问题背景**：讯飞 TTS 服务通过 WebSocket **分片返回音频数据**（每次返回一小段 base64 编码的音频片段）。 - **解决方案**：`ByteArrayOutputStream` 是一个动态扩容的字节数组缓冲区，可以**高效接收并拼接这些分片**，最终合成完整的音频二进制数据。 ```java byte[] audioData = Base64.getDecoder().decode(audioBase64); // 解码片段 audioStream.write(audioData); // 写入内存流 ``` ### 2. **避免频繁磁盘IO** - **性能优化**：若直接将每个片段写入磁盘文件，会产生大量小文件和频繁的磁盘读写操作，**显著降低性能**。 - **内存流优势**：内存操作速度远快于磁盘（纳秒级 vs 毫秒级），尤其适合处理临时性、聚合性的数据。 ### 3. **简化后续处理流程** - **统一输出**：合成完成后，内存流中已保存完整音频的二进制数据（`audioStream.toByteArray()`），可直接用于： - 上传至对象存储（如 MinIO） - 返回给工作流节点作为输出 - **避免中间文件**：无需在磁盘上创建临时文件，减少文件管理开销和异常时的清理负担。 ### 4. **资源可控性** - **内存限制**：音频文件通常不会过大（一般 < 10MB），内存占用可控。若处理超大文件，可改用 `BufferedOutputStream` + 分块上传。 - **异常处理**：若合成失败，可直接丢弃内存流中的数据，无需清理磁盘残留文件。 ### 5. **与异步处理协同** - **异步合成**：`CompletableFuture` 异步等待合成完成，内存流作为数据容器，在回调中一次性获取完整结果，避免线程同步问题。 --- ### 对比其他方案的不足 | 方案 | 缺点 | |---------------------|----------------------------------------------------------------------| | **直接写入磁盘文件** | 频繁IO导致性能瓶颈；需管理临时文件；合成失败时需手动清理。 | | **逐片段返回响应** | 网络传输效率低（多次小包）；客户端需复杂状态管理。 | | **预分配大数组** | 内存浪费（音频大小未知）；可能触发 OOM（Out of Memory）。 | --- ### 总结使用 `ByteArrayOutputStream` 是**流式音频处理的标准实践**，它通过内存缓冲区高效聚合分片数据，在保证性能的同时简化了后续的上传或返回逻辑，是处理 WebSocket 实时音频流的理想选择。

引用原文：先用 OkHttpClient 建立连接，再用 WebSocketListener 去接 onOpen 和 onMessage 这种回调，连接一通就把合成请求发出去，服务端回消息就一点点处理

@派聪明，这是什么意思

这段文字描述了 **WebSocket 通信在语音合成（TTS）服务中的具体实现流程**，以下是逐层解析： --- ### **1. 用 `OkHttpClient` 建立连接** - **`OkHttpClient`** 是 Java 中常用的 HTTP/WebSocket 客户端库。 - **作用**：通过 `OkHttpClient.newWebSocket()` 方法建立与 TTS 服务的 **WebSocket 长连接**（替代传统 HTTP 请求）。 - **为什么用 WebSocket？** 语音合成是**流式过程**（服务端边生成音频边返回），WebSocket 支持实时双向通信，适合流式数据传输。 --- ### **2. 用 `WebSocketListener` 处理回调** - **`WebSocketListener`** 是 OkHttp 提供的监听器接口，用于处理 WebSocket 生命周期事件。 - **关键回调方法**： - **`onOpen()`**：连接成功建立后触发 → **立即发送合成请求**（如文本内容、音色参数）。 - **`onMessage()`**：收到服务端返回的消息时触发 → **处理音频数据**（如解码 Base64 音频片段）。 - **设计逻辑**：连接一成功就主动发起请求，服务端分段返回音频数据，客户端持续接收并处理。 --- ### **3. 连接一通就发请求** - **触发时机**：`onOpen()` 回调中调用 `webSocket.send()` 发送合成请求（JSON 格式）。 - **请求内容**：包含待合成的文本、音色（`vcn`）、语速（`speed`）等参数（参考示例配置）。 --- ### **4. 服务端回消息就一点点处理** - **流式接收**：服务端不是等全部音频生成完再返回，而是**分段推送音频数据**（如每 500ms 返回一段）。 - **处理方式**： 1. **解码数据**：`onMessage()` 中接收 Base64 编码的音频片段 → 解码为 `byte[]`。 2. **拼接音频**：将解码后的数据写入内存流（如 `ByteArrayOutputStream`）。 3. **判断结束**：当服务端返回的消息中状态码 `status=2` 时，表示音频合成完成。 4. **返回结果**：将完整音频数据上传至存储（如 MinIO），返回可访问的 URL。 --- ### **技术总结** | **步骤** | **实现细节** | |------------------------|-----------------------------------------------------------------------------| | **建立连接** | `OkHttpClient` 初始化 WebSocket 连接，配置鉴权 URL（含 HMAC 签名）。 | | **发送请求** | 连接成功后（`onOpen`），立即发送包含文本、音色等参数的 JSON 请求。 | | **流式接收数据** | 通过 `onMessage` 持续接收服务端返回的 Base64 音频片段，解码并拼接。 | | **结束处理** | 收到 `status=2` 时停止接收，将完整音频上传至存储，返回 URL 给工作流引擎。 | --- ### **为什么这样设计？** 1. **实时性**：避免等待全部音频生成完成，用户可边接收边播放（如实时语音助手）。 2. **资源效率**：减少服务端内存占用，避免大文件一次性传输。 3. **容错性**：通过 WebSocket 长连接保持通信状态，支持重试机制（如超时重连）。 > ✅ **简单类比**： > 就像打电话时，你说完一句话（发送请求），对方不是等你说完所有话才回应，而是边听边回应（流式返回），你收到回应后可以继续说（双向交互）。

Ψ 2026年03月11日 15:48

引用原文：第四步，使用 OkHttpClient 建立 WebSocket 连接，并发起请求。

@派聪明，这是什么意思，不是已经接收到了音频信息了吗，为什么还要使用OkHttpCilent建立websocket连接

派聪明 2026年03月11日 15:48

在SmartTTSIntegration的performSmartTTSSynthesis方法中，这些步骤是有先后顺序的： 1. 生成鉴权URL 2. 创建Future异步接收结果 3. 创建WebSocket监听器 4. 使用OkHttpClient建立WebSocket连接并发起请求 5. 阻塞等待结果这里"第四步"建立WebSocket连接是开始通信的第一步，而不是已经接收到音频信息。WebSocket通信需要先建立连接，然后才能发送和接收消息： - 连接建立前：无法发送任何请求，也无法接收任何数据 - 连接建立后(onOpen回调)：会立即发送合成请求给讯飞服务器 - 接收消息(onMessage回调)：才开始接收服务器返回的音频数据所以建立WebSocket连接是整个流程的起点，而不是终点。音频数据是在连接建立后，通过WebSocket连接实时接收的流式数据。