没有 HITL 人工审批的 Agent，rm -rf 他都敢干。

我们现在的 Agent 是完全信任 AI 的，这等于说把一些危险的动作也交给了 AI。

比如说删除一个文件夹。

但真正的 Agent 显然不应该具备这种无限制的权限，在遇到一些危险的操作时候，应该把控制权交给我们人。

于是 HITL，Human-in-the-Loop，人工审批介入出现了。

危险操作执行前，先问一声。

这篇文章会手把手带大家实现完整的 HITL 系统，包括危险策略识别、审批请求格式化、用户交互收集、以及最核心的拦截层设计。

01、为什么 Agent 需要人工审批

先说清楚背景。

PaiCLI 已经有了 ReAct、Plan-and-Execute、Memory、RAG、Multi-Agent，功能挺全的。

但越能干，风险越高。

一个 Agent 在执行任务的时候，可能会：

用 write_file 覆写一个你不想动的文件，用 execute_command 跑一条不符合预期的命令，用 create_project 在磁盘上创建出一堆你不知道的文件夹。

Agent 本身是没有恶意的，但模型有时候会“理解偏差”，把你的意图曲解成另一件事。

特别是在 Plan-and-Execute 和 Multi-Agent 模式下，任务执行的周期一旦很长，执行者就有可能犯下大错。

HITL 的出发点很简单：在执行之前，让人眼瞅一眼，确认没问题再继续。

这不是什么新鲜概念。

Claude Code 里有个 --dangerously-skip-permissions 参数，参数名里的 dangerously 就说明了一切——默认状态下，执行危险操作前它会停下来等你确认。

Codex 里有个 Approval Mode，也是同样的道理。

工具的设计者意识到，一个有写磁盘和执行命令能力的 Agent，不加任何约束直接跑，风险是很大的。

大模型的幻觉虽然在下降，但永远不会到零。

用户的意图经过提示词翻译成行动，本身就有信息损耗。损耗叠加幻觉，执行就可能跑偏。HITL 不是说 Agent 不可信，而是在模型还没有足够可靠之前，人始终要把控最后一道关。

02、危险操作怎么判断

这里有个很关键的设计决策：危险操作的判断，用静态规则还是动态 LLM 判断？

我选的是静态规则，理由很简单。

动态判断意味着每次调用工具之前，都要问一次 LLM：“这个操作危险吗？”这不仅慢，而且不可靠——今天问出来是危险的，明天可能问出来是安全的。

模型本身有随机性，用它来判断“是否要人工干预”，我们暂时先不考虑。

直接用静态规则写死一个名单。

public class ApprovalPolicy {

    // 需要人工确认的工具集合
    private static final Set DANGEROUS_TOOLS = Set.of(
            "write_file",
            "execute_command",
            "create_project"
    );

    public static boolean requiresApproval(String toolName) {
        return DANGEROUS_TOOLS.contains(toolName);
    }

    public static String getDangerLevel(String toolName) {
        return switch (toolName) {
            case "execute_command" -> "🔴 高危";
            case "write_file"      -> "🟡 中危";
            case "create_project"  -> "🟡 中危";
            default                -> "🟢 安全";
        };
    }

    public static String getRiskDescription(String toolName) {
        return switch (toolName) {
            case "execute_command" -> "将在系统上执行 Shell 命令，可能修改文件、安装软件或影响系统状态";
            case "write_file"      -> "将写入或覆盖文件内容，原有内容将丢失";
            case "create_project"  -> "将在磁盘上创建新目录和文件";
            default                -> "安全的只读操作";
        };
    }
}

read_file、list_dir、search_code 这三个工具是只读操作，不会改变任何东西，不需要审批。

write_file、execute_command、create_project 会写磁盘或跑命令，需要人工确认。

逻辑简单、结果可预期，这才是做 Agent 该有的样子。

execute_command 是高危（会跑 shell 命令），write_file 和 create_project 是中危（会写磁盘）。

这个等级信息后面会展示在审批框里，让用户一眼看出当前操作的危险指数。

03、审批请求怎么设计

审批请求是 HITL 系统里用户感知最强的一环——它决定了用户看到什么，进而决定用户能不能做出合理的判断。

ApprovalRequest 的定义如下：

public record ApprovalRequest(
        String toolName,
        String arguments,
        String dangerLevel,
        String riskDescription,
        String suggestion,
        String callerContext
) {
    public static ApprovalRequest of(String toolName, String arguments, String suggestion) {
        return new ApprovalRequest(
                toolName,
 ...

5人已点赞

6 条评论

etovo 2026年07月08日 16:16

引用原文： Mock

@派聪明 Mock是什么

派聪明 2026年07月08日 16:16

根据你引用的文章内容，**Mock**（通常指 **Mockito** 框架）是 Java 单元测试中用于**模拟对象**的工具。简单来说，当你要测试某个类时，它可能依赖数据库、外部 API 或文件系统等真实组件。如果每次都把这些真实组件拉起来，测试会很慢、不稳定，而且难以控制。Mock 的作用就是**创建一个假的替代品**，让你能： - **控制行为**：指定某个方法调用时返回什么值（`when(mock.method()).thenReturn(xxx)`） - **验证调用**：检查某个方法是否被调用了、调了几次、传了什么参数（`verify(mock, times(1)).method(...)`）在文章中的 HITL 测试代码里，Mockito 被用来模拟 `HitlHandler` 接口，避免真实依赖终端输入输出，使得测试可以快速、可靠地运行： ```java HitlHandler mockHandler = mock(HitlHandler.class); // 创建 mock when(mockHandler.isEnabled()).thenReturn(true); // 控制行为 verify(mockHandler, never()).requestApproval(any()); // 验证调用 ``` **一句话总结**：Mock 是测试中的"替身演员"，帮你隔离外部依赖，只专注测试目标逻辑本身。

Lee 2026年07月02日 09:20

引用原文：定义如下

@派聪明 ApprovalRequest中的callerContext是什么？怎么来的？

派聪明 2026年07月02日 09:20

从你截取的那段代码可以清晰看到 **`callerContext` 是 `ApprovalRequest` record 中的一个预留字段**，但**当前实现中并没有给它赋值**。具体来看源码： ```java public record ApprovalRequest( String toolName, String arguments, String dangerLevel, String riskDescription, String suggestion, String callerContext // ← 这个字段 ) { public static ApprovalRequest of(String toolName, String arguments, String suggestion) { return new ApprovalRequest( toolName, arguments, ApprovalPolicy.getDangerLevel(toolName), ApprovalPolicy.getRiskDescription(toolName), suggestion, null // ← 这里直接传了 null ); } } ``` --- ### 它是干什么的？从命名推断——**`callerContext` = "调用者上下文"**。它的设计意图是记录**这次审批请求是由谁发起的**，比如： - 在 **Multi-Agent** 模式下，是 `SubAgentA` 还是 `SubAgentB` 调的危险操作？ - 在 **Plan-and-Execute** 模式下，是哪个 Step 的哪个工具调用？有了这个信息，审批框里就能告诉用户**"哪个 Agent、在哪一步、想干什么"**，帮助用户更精准地判断是否放行。 ### 为什么目前传 `null`？因为文章介绍的 HITL 还是 **V1 版本**，最基础的能力是先跑通“拦截→展示→决策”这个闭环。文章中明确说了： > `toDisplayText()` 方法展示的信息已经包含了工具名、等级、风险描述、参数，在当前单 Agent 场景下足够用。 `callerContext` 属于**扩展预留字段**，为后续 Multi-Agent 下精细化审批做准备——等后面需要区分“谁调的”时，直接在这个字段里塞入 Agent ID + 步骤名即可，record 结构不用改。

没有 HITL 人工审批的 Agent，rm -rf 他都敢干。

01、为什么 Agent 需要人工审批

02、危险操作怎么判断

03、审批请求怎么设计

热门评论

6 条评论

目录

划线评论