Agent安全是企业安全的新命题——用AI管AI的执行控制体系

当企业开始把越来越多的业务流程交给 AI Agent 自动执行时，一个被严重低估的问题浮出水面：传统安全体系管的是"谁能进来"，但没人管"AI进来之后做了什么"。

这不是一个可以等的问题。Agent 一旦接入企业核心系统，风险就从"入口"转移到了"执行过程"。我们需要的不是又一套传统防火墙，而是一套 AI 原生的执行控制能力——用 AI 来管 AI。

传统安全模型为什么失效了

企业安全体系经过了二十多年的迭代，但核心逻辑始终围绕访问控制——身份认证、权限管理、网络隔离。这套体系回答的是一个问题：谁能访问什么资源？

但 AI Agent 改变了游戏规则。一个被授权接入 CRM 系统的 Agent，可能因为一次 Prompt 注入就执行了批量删除客户数据的操作。一个有权访问财务系统的 Agent，可能因为上下文理解偏差，把"导出本月报表"理解成"导出全部历史数据并发送到外部邮箱"。

传统安全模型无法应对三类新型威胁：

Prompt 注入攻击：恶意指令被嵌入用户输入或外部数据中，劫持 Agent 行为
自动化误操作：Agent 对业务上下文理解偏差导致的批量错误执行
大规模错误放大：传统人工操作的错误是线性的，Agent 的错误是指数级的——它可以在几秒内对数千条记录执行错误操作

风险的本质变了：不再是"有人闯进来"，而是"被授权的 AI 在里面做了不该做的事"。

解法：执行时的实时控制体系

我们提出的核心理念是：将安全检查从"事后审计"前移到"执行时决策"。整套体系由四个层次组成。

1. 实时风险评估——安全 Agent

在每一次 Agent 执行动作的瞬间，一个专门的安全 Agent 同步介入：

理解上下文：当前任务是什么？用户的原始意图是什么？这个操作在业务流程中是否合理？
评估风险：这次操作影响多少条数据？是否涉及敏感字段？是否超出历史操作模式？
实时决策：放行、降级执行、暂停等待确认、或直接拦截

class SecurityAgent:
    """AI Agent 执行过程中的实时安全评估"""

    def evaluate(self, action_context: ActionContext) -> RiskDecision:
        # 1. 解析操作意图与影响范围
        intent = self.understand_intent(action_context)
        scope = self.assess_impact_scope(action_context)

        # 2. 多维度风险评分
        risk_score = self.calculate_risk(
            data_sensitivity=scope.sensitivity_level,
            operation_type=intent.operation_type,  # read/write/delete/export
            affected_records=scope.record_count,
            historical_pattern=self.check_anomaly(action_context),
            prompt_injection_score=self.detect_injection(action_context)
        )

        # 3. 基于风险等级做出决策
        if risk_score < 0.3:
            return RiskDecision.ALLOW
        elif risk_score < 0.6:
            return RiskDecision.ALLOW_WITH_LOGGING
        elif risk_score < 0.8:
            return RiskDecision.REQUIRE_HUMAN_APPROVAL
        else:
            return RiskDecision.BLOCK
    # generated by hugo's coding agent

这不是传统的规则引擎——它是一个能理解业务语义的 AI 安全守卫。它能区分"导出本月销售报表给领导"和"导出全部客户手机号到个人邮箱"的本质差异。

2. 人在环授权——钉钉作为安全控制点

当安全 Agent 判定某个操作为高风险时，系统不会直接拦截（那会严重影响效率），而是将决策权交给人。

钉钉手机端成为 AI Agent 高风险操作的统一授权入口，典型流程如下：

Agent 发起操作（如：批量删除过期订单）
       ↓
安全 Agent 评估：高风险（影响 5000+ 条记录）
       ↓
推送钉钉消息：
  "⚠️ Agent 请求执行：删除 5,238 条过期订单
   触发规则：批量删除 > 1000 条
   操作者：销售数据清理 Agent
   [确认执行] [查看详情] [拒绝]"
       ↓
用户生物识别验证 → 确认/拒绝
       ↓
Agent 收到授权结果，继续或终止

这个模式的本质是AI 时代的 U 盾——把最关键的决策权留给人，同时不拖慢日常操作。它也是 Agent 层面的 MFA（多重认证）：Agent 有权限还不够，高风险操作还需要人的实时确认。

3. 动态安全强度控制——效率与安全的可调平衡

不同业务场景对安全的要求天然不同。一个内部数据分析 Agent 和一个面向客户的交易 Agent，显然需要不同等级的安全控制。

我们设计了三个维度的动态调节能力：

维度	说明	调节方式
覆盖面	多少比例的操作需要安全检查	策略档位 / 滑块
检查深度	用规则、小模型还是大模型进行评估	基于风险等级自动升级
人工介入阈值	多容易触发人在环确认	业务场景预设 + 手动调整

企业可以选择三种预设策略档位：

效率优先：仅检查写入/删除操作，轻量规则过滤，高阈值触发人工确认
平衡模式：覆盖所有写操作和敏感读操作，中等模型评估，适中的人工确认阈值
安全优先：全量操作检查，大模型深度推理，低阈值触发人工确认

系统还支持自动档——当检测到异常模式（如短时间内大量高风险操作）时，自动提升安全等级。

4. 分层安全架构——成本可控的关键

安全不能以无限制增加成本为代价。我们采用漏斗式分层设计，让大部分操作以极低成本通过安全检查，只有真正的高风险操作才消耗大模型算力或人工注意力：

所有 Agent 操作（100%）
        ↓
   规则过滤层（成本极低）
   过滤明显安全的操作（~80% 放行）
        ↓
   轻量模型判断（低成本）
   对中风险操作进行快速评估（~15% 在此处理）
        ↓
   大模型深度推理（中等成本）
   对复杂场景进行语义级理解（~4% 在此处理）
        ↓
   人在环 - 钉钉授权（最高成本）
   极高风险操作的最终决策（~1%）

这个漏斗确保了三个关键目标同时达成：

安全能力充分增强：真正危险的操作一定会被截获
成本不会失控：绝大部分操作由低成本层处理
用户体验可接受：日常操作几乎无感知延迟

行业实践数据显示，安全相关算力通常占 AI Agent 总算力的 3%–6%（电商等典型场景），高合规行业（金融、医疗）可上升至约 8%。关键是：这个比例是可调的，企业可以根据自身风险偏好和预算灵活配置。

这套体系带来的核心价值

从被动到主动：风险发现从"事后审计报告里的一行异常"变成"执行前的实时拦截"。误删、越权、数据泄露——在发生之前就被阻止。

安全与效率不再对立：通过动态安全强度控制，企业不需要在"全面管控导致效率低下"和"放任自动化导致风险失控"之间二选一。安全等级可以像音量旋钮一样精确调节。

合规能力体系化：每一次 Agent 操作、每一次安全评估、每一次人工授权都有完整的审计链路。面对监管审查和内控要求，企业可以拿出清晰的证据链。

形成平台级能力沉淀：这不是为某一个 Agent 建的安全系统，而是一套可复用到所有 AI Agent、所有业务系统的执行控制平台。Agent 执行控制、安全策略引擎、人机协同授权——这些能力一旦建成，就是企业在 AI 时代的核心基础设施。

写在最后

AI Agent 安全不是一个可以"等等再说"的问题。每多接入一个 Agent，每多自动化一个业务流程，“执行过程不可控"的风险就在累积。

我们不是在增加一套安全系统，而是在为 AI Agent 构建执行过程中的实时控制能力——让企业可以在拥抱 AI 自动化的同时，保持对风险、成本和效率的全面掌控。

用 AI 管 AI，这不是选择题，而是必答题。

AI-agents 安全企业架构钉钉风险控制