当企业开始把越来越多的业务流程交给 AI Agent 自动执行时,一个被严重低估的问题浮出水面:传统安全体系管的是"谁能进来",但没人管"AI进来之后做了什么"。
这不是一个可以等的问题。Agent 一旦接入企业核心系统,风险就从"入口"转移到了"执行过程"。我们需要的不是又一套传统防火墙,而是一套 AI 原生的执行控制能力——用 AI 来管 AI。
传统安全模型为什么失效了
企业安全体系经过了二十多年的迭代,但核心逻辑始终围绕访问控制——身份认证、权限管理、网络隔离。这套体系回答的是一个问题:谁能访问什么资源?
但 AI Agent 改变了游戏规则。一个被授权接入 CRM 系统的 Agent,可能因为一次 Prompt 注入就执行了批量删除客户数据的操作。一个有权访问财务系统的 Agent,可能因为上下文理解偏差,把"导出本月报表"理解成"导出全部历史数据并发送到外部邮箱"。
传统安全模型无法应对三类新型威胁:
- Prompt 注入攻击:恶意指令被嵌入用户输入或外部数据中,劫持 Agent 行为
- 自动化误操作:Agent 对业务上下文理解偏差导致的批量错误执行
- 大规模错误放大:传统人工操作的错误是线性的,Agent 的错误是指数级的——它可以在几秒内对数千条记录执行错误操作
风险的本质变了:不再是"有人闯进来",而是"被授权的 AI 在里面做了不该做的事"。
解法:执行时的实时控制体系
我们提出的核心理念是:将安全检查从"事后审计"前移到"执行时决策"。整套体系由四个层次组成。
1. 实时风险评估——安全 Agent
在每一次 Agent 执行动作的瞬间,一个专门的安全 Agent 同步介入:
- 理解上下文:当前任务是什么?用户的原始意图是什么?这个操作在业务流程中是否合理?
- 评估风险:这次操作影响多少条数据?是否涉及敏感字段?是否超出历史操作模式?
- 实时决策:放行、降级执行、暂停等待确认、或直接拦截
class SecurityAgent:
"""AI Agent 执行过程中的实时安全评估"""
def evaluate(self, action_context: ActionContext) -> RiskDecision:
# 1. 解析操作意图与影响范围
intent = self.understand_intent(action_context)
scope = self.assess_impact_scope(action_context)
# 2. 多维度风险评分
risk_score = self.calculate_risk(
data_sensitivity=scope.sensitivity_level,
operation_type=intent.operation_type, # read/write/delete/export
affected_records=scope.record_count,
historical_pattern=self.check_anomaly(action_context),
prompt_injection_score=self.detect_injection(action_context)
)
# 3. 基于风险等级做出决策
if risk_score < 0.3:
return RiskDecision.ALLOW
elif risk_score < 0.6:
return RiskDecision.ALLOW_WITH_LOGGING
elif risk_score < 0.8:
return RiskDecision.REQUIRE_HUMAN_APPROVAL
else:
return RiskDecision.BLOCK
# generated by hugo's coding agent
这不是传统的规则引擎——它是一个能理解业务语义的 AI 安全守卫。它能区分"导出本月销售报表给领导"和"导出全部客户手机号到个人邮箱"的本质差异。
2. 人在环授权——钉钉作为安全控制点
当安全 Agent 判定某个操作为高风险时,系统不会直接拦截(那会严重影响效率),而是将决策权交给人。
钉钉手机端成为 AI Agent 高风险操作的统一授权入口,典型流程如下:
Agent 发起操作(如:批量删除过期订单)
↓
安全 Agent 评估:高风险(影响 5000+ 条记录)
↓
推送钉钉消息:
"⚠️ Agent 请求执行:删除 5,238 条过期订单
触发规则:批量删除 > 1000 条
操作者:销售数据清理 Agent
[确认执行] [查看详情] [拒绝]"
↓
用户生物识别验证 → 确认/拒绝
↓
Agent 收到授权结果,继续或终止
这个模式的本质是AI 时代的 U 盾——把最关键的决策权留给人,同时不拖慢日常操作。它也是 Agent 层面的 MFA(多重认证):Agent 有权限还不够,高风险操作还需要人的实时确认。
3. 动态安全强度控制——效率与安全的可调平衡
不同业务场景对安全的要求天然不同。一个内部数据分析 Agent 和一个面向客户的交易 Agent,显然需要不同等级的安全控制。
我们设计了三个维度的动态调节能力:
| 维度 | 说明 | 调节方式 |
|---|---|---|
| 覆盖面 | 多少比例的操作需要安全检查 | 策略档位 / 滑块 |
| 检查深度 | 用规则、小模型还是大模型进行评估 | 基于风险等级自动升级 |
| 人工介入阈值 | 多容易触发人在环确认 | 业务场景预设 + 手动调整 |
企业可以选择三种预设策略档位:
- 效率优先:仅检查写入/删除操作,轻量规则过滤,高阈值触发人工确认
- 平衡模式:覆盖所有写操作和敏感读操作,中等模型评估,适中的人工确认阈值
- 安全优先:全量操作检查,大模型深度推理,低阈值触发人工确认
系统还支持自动档——当检测到异常模式(如短时间内大量高风险操作)时,自动提升安全等级。
4. 分层安全架构——成本可控的关键
安全不能以无限制增加成本为代价。我们采用漏斗式分层设计,让大部分操作以极低成本通过安全检查,只有真正的高风险操作才消耗大模型算力或人工注意力:
所有 Agent 操作(100%)
↓
规则过滤层(成本极低)
过滤明显安全的操作(~80% 放行)
↓
轻量模型判断(低成本)
对中风险操作进行快速评估(~15% 在此处理)
↓
大模型深度推理(中等成本)
对复杂场景进行语义级理解(~4% 在此处理)
↓
人在环 - 钉钉授权(最高成本)
极高风险操作的最终决策(~1%)
这个漏斗确保了三个关键目标同时达成:
- 安全能力充分增强:真正危险的操作一定会被截获
- 成本不会失控:绝大部分操作由低成本层处理
- 用户体验可接受:日常操作几乎无感知延迟
行业实践数据显示,安全相关算力通常占 AI Agent 总算力的 3%–6%(电商等典型场景),高合规行业(金融、医疗)可上升至约 8%。关键是:这个比例是可调的,企业可以根据自身风险偏好和预算灵活配置。
这套体系带来的核心价值
从被动到主动:风险发现从"事后审计报告里的一行异常"变成"执行前的实时拦截"。误删、越权、数据泄露——在发生之前就被阻止。
安全与效率不再对立:通过动态安全强度控制,企业不需要在"全面管控导致效率低下"和"放任自动化导致风险失控"之间二选一。安全等级可以像音量旋钮一样精确调节。
合规能力体系化:每一次 Agent 操作、每一次安全评估、每一次人工授权都有完整的审计链路。面对监管审查和内控要求,企业可以拿出清晰的证据链。
形成平台级能力沉淀:这不是为某一个 Agent 建的安全系统,而是一套可复用到所有 AI Agent、所有业务系统的执行控制平台。Agent 执行控制、安全策略引擎、人机协同授权——这些能力一旦建成,就是企业在 AI 时代的核心基础设施。
写在最后
AI Agent 安全不是一个可以"等等再说"的问题。每多接入一个 Agent,每多自动化一个业务流程,“执行过程不可控"的风险就在累积。
我们不是在增加一套安全系统,而是在为 AI Agent 构建执行过程中的实时控制能力——让企业可以在拥抱 AI 自动化的同时,保持对风险、成本和效率的全面掌控。
用 AI 管 AI,这不是选择题,而是必答题。