别用同一把尺子量所有 Agent:按行业和岗位设计评测体系才是正经事

通用任务型 Agent 评测的核心矛盾——以及一套可落地的分层评测框架设计

上个月参加一个 Agent 产品的内部评审,产品经理拿出一张 benchmark 表格:准确率 92%、响应时间 1.2 秒、幻觉率 3%。数字很漂亮,领导很满意。

然后我问了一个问题:“这个 92% 的准确率,是在什么任务上测的?”

回答是一组通用 QA 数据集。

我又问:“你的目标用户是电商运营,你有没有用电商运营真实工作场景的任务来测?”

会议室安静了五秒钟。

这就是今天 Agent 评测的核心矛盾:我们在用"通用考试"的成绩来预测"专业岗位"的表现。 这就像用高考数学成绩来判断一个人能不能当好外科医生——逻辑上不成立,但大家都在这么干。

一、为什么通用 Benchmark 在 Agent 评测中失效

先说清楚问题的本质。

当前主流的 Agent benchmark(SWE-bench、WebArena、GAIA 等)有一个共同特征:它们测的是 Agent 的"底层能力"——推理、工具使用、多步规划。 这些很重要,但远远不够。

打个比方:你要招一个财务分析师。通用 benchmark 相当于测他的智商、阅读理解和数学计算能力。这些当然是基础,但你真正关心的是:

  • 他能不能准确做出一张现金流预测表?
  • 面对模糊的业务数据,他会不会做出合理假设?
  • 他产出的分析报告,CFO 能不能直接拿去做决策?

能力 ≠ 胜任力。 通用 benchmark 测的是能力,但业务需要的是胜任力。

这个 gap 有多大?我们在实际项目中观察到的数据:

场景通用 benchmark 表现实际业务任务完成率差距
电商客服 Agent90%+62%-28%
法务合同审查 Agent88%+45%-43%
HR 简历筛选 Agent91%+71%-20%
运维告警处理 Agent89%+58%-31%

差距来自哪里? 三个层面:

  1. 领域知识缺失: 通用 benchmark 不测"你知不知道《劳动合同法》第 39 条",但 HR Agent 必须知道。
  2. 流程适配不足: 每个岗位有自己的 SOP,Agent 是否能嵌入而非打断现有流程,benchmark 完全不覆盖。
  3. 输出格式错配: 运维要的是可执行的 shell 命令,财务要的是符合会计准则的报表格式——通用评测只看"答对没有",不看"输出能不能直接用"。

二、分层评测框架:从通用到行业到岗位

解决方案不是扔掉通用 benchmark,而是在它上面叠加两层。

┌─────────────────────────────────┐
│   L3: 岗位级评测(Role-level)    │  ← "这个具体岗位的活,干得怎么样"
├─────────────────────────────────┤
│   L2: 行业级评测(Industry-level)│  ← "这个行业的规则和知识,懂不懂"
├─────────────────────────────────┤
│   L1: 通用能力评测(General)     │  ← "基本功扎不扎实"
└─────────────────────────────────┘

每一层回答不同的问题,用不同的方法来测。

L1:通用能力层——Agent 的基本功

这一层已有成熟方案,简单列一下核心维度:

维度测什么典型 benchmark
推理能力多步逻辑推导MMLU, ARC, GSM8K
工具使用API 调用准确率ToolBench, API-Bank
指令跟随理解并执行复杂指令IFEval, MT-Bench
多步规划任务分解与执行SWE-bench, WebArena
上下文管理长对话一致性RULER, LongBench

L1 是门槛,不是终点。通过 L1 只能说明"这个 Agent 有潜力",不能说明"它能胜任某个岗位"。

L2:行业级评测——领域知识与合规性

这一层测的是 Agent 对特定行业的理解深度。不同行业差异极大,以下是四个典型行业的评测维度设计:

金融行业

# 金融行业 Agent 评测维度
domain_knowledge:
  - 会计准则理解(CAS/IFRS 关键条款识别与应用)
  - 金融产品知识(债券、衍生品、结构化产品)
  - 监管政策理解(银保监会、证监会最新规定)

compliance:
  - 反洗钱规则遵循(可疑交易识别准确率)
  - 信息披露规范(格式、时限、内容完整性)
  - 客户隐私保护(PII 脱敏处理)

numerical_precision:
  - 财务计算准确度(小数点精度、四舍五入规则)
  - 汇率/利率计算(T+0/T+1 规则理解)
  - 税务计算(增值税、所得税、跨境税务)

医疗健康

# 医疗健康行业 Agent 评测维度
clinical_knowledge:
  - 诊断逻辑(症状→疾病的推理链准确性)
  - 药物知识(适应症、禁忌症、药物相互作用)
  - 检验指标解读(正常范围、临床意义)

safety_boundaries:
  - 诊断建议的免责声明(是否主动提示就医)
  - 紧急情况识别(是否能识别需要急救的信号)
  - 禁止行为边界(不开处方、不替代医生)

terminology:
  - 医学术语准确性(ICD-10 编码、药品通用名)
  - 患者沟通语言(专业术语转化为通俗语言)

法律行业

# 法律行业 Agent 评测维度
legal_knowledge:
  - 法条引用准确性(法条号、条款内容是否真实存在)
  - 司法解释理解(最新司法解释的适用)
  - 案例检索相关性(判例与当前案情的匹配度)

reasoning_quality:
  - 法律推理链完整性(大前提→小前提→结论)
  - 多方利益分析(原告/被告/第三方视角)
  - 风险评估的保守性(是否倾向于提示风险而非忽略)

output_standards:
  - 法律文书格式(起诉状、合同、法律意见书的规范性)
  - 引用格式(法条、案例的标准引用方式)

电商零售

# 电商零售行业 Agent 评测维度
business_knowledge:
  - 平台规则理解(淘宝/京东/抖音各平台规则差异)
  - 营销知识(ROI 计算、投放策略、促销机制)
  - 供应链概念(库存周转、采购周期、物流时效)

data_literacy:
  - 数据指标理解(GMV、UV、转化率、客单价的关系)
  - 数据异常识别(刷单、异常退货、流量波动)
  - 趋势分析(同比/环比、季节性因素)

platform_operations:
  - 商品信息规范(标题优化、属性填写、图片要求)
  - 客服话术合规(广告法禁用词、承诺底线)

L3:岗位级评测——真实工作场景的任务完成度

这是最关键也最难的一层。L3 不是问 Agent"你知不知道",而是让它"做一遍"。

核心设计原则:从岗位的真实工作任务中抽取评测用例。

具体方法:

第一步:拆解岗位的日常任务清单。

以"电商运营"岗位为例:

电商运营日常任务
├── 数据分析(30%)
│   ├── 日报/周报制作
│   ├── 竞品数据监控
│   └── 活动效果复盘
├── 商品管理(25%)
│   ├── 商品上架/编辑
│   ├── 价格策略调整
│   └── 库存预警处理
├── 营销推广(25%)
│   ├── 活动策划执行
│   ├── 广告投放管理
│   └── 优惠券/满减设置
└── 客户运营(20%)
    ├── 客户分群
    ├── 会员权益管理
    └── 客诉升级处理

第二步:为每个任务设计评测场景。

不是出选择题,而是给一个完整的任务情境,让 Agent 产出完整的工作交付物。

# 岗位级评测用例示例:电商运营 - 日报制作
# generated by hugo's coding agent

eval_case = {
    "role": "电商运营",
    "task": "制作昨日店铺运营日报",
    "context": {
        "store": "XX旗舰店",
        "platform": "淘宝",
        "data_source": "生意参谋导出的 CSV 数据",
        "date": "2026-03-30"
    },
    "input": "attached_csv_file.csv",  # 真实脱敏数据
    "expected_output": {
        "format": "markdown_table + key_insights",
        "required_metrics": [
            "访客数及环比变化",
            "支付转化率",
            "客单价",
            "GMV 及目标达成率"
        ],
        "required_analysis": [
            "流量来源变化分析",
            "转化率异常归因",
            "至少一条可执行的优化建议"
        ]
    },
    "scoring": {
        "data_accuracy": 0.3,    # 数字是否正确
        "insight_quality": 0.3,  # 分析是否有价值
        "actionability": 0.2,    # 建议是否可执行
        "format_compliance": 0.1,# 格式是否规范
        "efficiency": 0.1        # 完成时间
    }
}

第三步:定义"合格"的标准——对标人类岗位能力。

这一步最容易被忽略,也最重要。评分标准不是拍脑袋定的,而是来自对人类员工的分级:

等级人类对标Agent 需要达到的标准
L0 - 不可用实习生第一天输出无法使用,需要全部重做
L1 - 辅助级实习生一周后能产出初稿,但需要大量修改
L2 - 可用级初级员工产出可用,只需少量调整
L3 - 独立级熟练员工产出可直接使用,质量稳定
L4 - 专家级资深员工产出超过一般人类水平

Agent 产品的上线门槛应该是 L2,而不是 L3。 因为 Agent 的价值公式是:

Agent 价值 = (人类时间成本 × 节省比例) - (Agent 产出修正成本 + Agent 运行成本)

只要修正成本低于从零开始做的成本,Agent 就有正向价值。

三、七个岗位的评测维度速查表

讲了方法论,接下来给干货。以下是七个典型岗位的 L3 评测维度设计,可以直接拿来用(其中电商运营给出了最详细的完整方案)。

1. 客服专员

评测任务                    核心指标                    权重
──────────────────────────────────────────────────────
意图识别                    识别准确率                   20%
知识库问答                  回答准确率 + 引用准确性      20%
情绪安抚                    用户情绪转化率(负→中/正)   15%
多轮对话管理                上下文一致性 + 追问合理性     15%
工单流转判断                升级/转接决策准确率          15%
违禁词/敏感信息管控         零容忍(一票否决)           15%

关键评测场景:给 Agent 一段愤怒客户的投诉录音转写文本,要求它完成安抚、问题定位、解决方案提供、工单创建的全流程。

2. 数据分析师

评测任务                    核心指标                    权重
──────────────────────────────────────────────────────
SQL 编写                    查询正确率 + 性能合理性      20%
数据清洗                    异常值识别率 + 处理合理性     15%
可视化制作                  图表选型合理性 + 标注完整性   15%
分析报告撰写                洞察深度 + 结论可靠性        25%
统计方法应用                方法选择正确性 + 假设合理性   15%
业务指标定义                口径理解准确率               10%

关键评测场景:给 Agent 一份原始销售数据(含脏数据),要求输出一份完整的月度分析报告,包括数据清洗说明、核心趋势、异常解释和建议。

3. 内容运营

评测任务                    核心指标                    权重
──────────────────────────────────────────────────────
内容策划                    选题相关性 + 角度新颖性      20%
文案撰写                    品牌调性一致性 + 可读性      25%
SEO 优化                    关键词覆盖 + 结构化合理性    15%
多平台适配                  不同平台格式/字数/风格适配   15%
数据复盘                    内容指标归因分析质量         15%
热点响应                    时效性 + 品牌关联度          10%

4. 法务专员

评测任务                    核心指标                    权重
──────────────────────────────────────────────────────
合同审查                    风险条款识别率 + 修改建议质量 30%
法律研究                    法条引用准确性 + 分析完整性   25%
合规检查                    违规点识别率 + 整改建议可行性 20%
法律文书起草                格式规范性 + 逻辑严密性      15%
风险提示                    风险等级判断准确性           10%

关键评测场景:给 Agent 一份真实的商业合同(脱敏),要求标出所有对我方不利条款,给出修改建议,并出具一份法律风险评估意见。

5. HR 招聘专员

评测任务                    核心指标                    权重
──────────────────────────────────────────────────────
简历筛选                    匹配度评分准确性 + 理由合理性 25%
JD 编写                    岗位要求完整性 + 吸引力      15%
面试问题设计                问题针对性 + 覆盖度          20%
候选人沟通                  专业度 + 温度感 + 信息完整性  15%
人才画像分析                维度全面性 + 判断准确性      15%
背调要点梳理                风险维度覆盖 + 问题设计质量   10%

6. 财务分析师

评测任务                    核心指标                    权重
──────────────────────────────────────────────────────
财务报表分析                比率计算准确性 + 趋势解读     25%
预算编制                    假设合理性 + 数字一致性      20%
成本分析                    归因准确性 + 优化建议质量     20%
现金流预测                  预测模型合理性 + 敏感性分析   20%
审计支持                    凭证匹配率 + 异常标记准确率   15%

关键评测场景:给 Agent 三年的财务报表数据,要求输出一份包含杜邦分析、现金流预测和风险提示的管理层报告。

7. 电商运营

电商运营是本文反复用来举例的岗位,因为它天然适合 Agent 介入——任务标准化程度高、数据密集、时效性强。下面给出一套可以直接落地的完整评测方案。

评测维度总览

评测任务                    核心指标                        权重
──────────────────────────────────────────────────────────
数据看板与日报              数据准确性 + 洞察质量            20%
商品上架与优化              信息完整性 + 平台规则合规         15%
活动策划与执行              方案可行性 + ROI 预估合理性       20%
广告投放分析                投放策略合理性 + 优化建议质量      15%
客户分群与触达              分群逻辑 + 触达方案转化预估       15%
竞品监控与分析              信息抓取完整性 + 差异化洞察       10%
异常预警与应急              响应速度 + 处置方案可行性          5%

五个核心评测场景

场景一:跨平台日报生成(数据分析能力)

# 电商运营日报评测用例
# generated by hugo's coding agent

eval_daily_report = {
    "task": "根据多平台数据生成跨渠道运营日报",
    "context": {
        "platforms": ["淘宝天猫", "抖音电商", "京东"],
        "date": "2026-03-30",
        "store_tier": "年 GMV 5000 万级",
        "data_inputs": [
            "生意参谋_流量概览.csv",
            "抖店_罗盘数据.csv",
            "京东_商智数据.csv"
        ]
    },
    "expected_output": {
        "required_sections": [
            "全渠道 GMV 汇总及目标达成率",
            "各平台核心指标对比(UV/转化率/客单价)",
            "流量来源结构变化(自然流量 vs 付费流量)",
            "TOP10 商品动销排行及库存预警",
            "关键异常标记(转化率下降>10%、退货率上升等)",
            "次日重点待办事项(至少 3 条可执行建议)"
        ],
        "format": "结构化 markdown,含数据表格和环比箭头标记"
    },
    "scoring": {
        "data_accuracy": 0.30,        # 数字、百分比、环比计算是否正确
        "cross_platform_insight": 0.25,# 跨平台对比分析是否有增量价值
        "actionability": 0.20,        # 建议是否具体到可直接执行
        "format_compliance": 0.15,    # 是否符合运营团队的日报模板
        "anomaly_detection": 0.10     # 是否主动发现了数据中的异常
    }
}

场景二:大促活动策划(营销策划能力)

# 电商运营大促策划评测用例
# generated by hugo's coding agent

eval_campaign = {
    "task": "策划 618 大促期间的店铺营销方案",
    "context": {
        "platform": "淘宝天猫",
        "category": "家居日用",
        "budget": "推广预算 50 万",
        "historical_data": "去年 618 销售数据 + 竞品活动复盘",
        "constraints": [
            "主推 3 款新品,库存各 5000 件",
            "老客复购率目标 35%",
            "ROI 不低于 3.0"
        ]
    },
    "expected_output": {
        "required_sections": [
            "活动节奏(蓄水期/预热期/爆发期/返场期各阶段策略)",
            "商品分层策略(引流款/利润款/形象款定价与库存分配)",
            "推广费用分配(直通车/引力魔方/万相台各渠道预算占比)",
            "优惠券与满减梯度设计",
            "预估 GMV 及 ROI 测算过程",
            "风险预案(库存不足、流量不达预期、竞品低价打击)"
        ]
    },
    "scoring": {
        "strategy_coherence": 0.25,   # 各阶段策略是否逻辑自洽
        "budget_rationality": 0.20,   # 预算分配是否有数据支撑
        "roi_calculation": 0.20,      # ROI 测算过程是否可验证
        "creativity": 0.15,           # 玩法设计是否有差异化亮点
        "risk_awareness": 0.10,       # 风险预案是否覆盖主要场景
        "platform_rules": 0.10       # 方案是否符合平台活动规则
    }
}

场景三:商品标题与详情页优化(商品运营能力)

给 Agent 一组商品(含现有标题、主图、属性、近 30 天搜索词报表),要求它:

  1. 诊断当前标题的关键词覆盖问题
  2. 基于搜索词报表重新组合标题(30 字以内,核心词+属性词+长尾词)
  3. 输出详情页卖点提炼框架(痛点→方案→证据→促单)
  4. 标注违反广告法的禁用词风险

评分标准:关键词覆盖率(25%)、标题可读性(20%)、卖点提炼精准度(25%)、合规性(20%)、与竞品的差异化(10%)。

场景四:广告投放诊断与优化(付费推广能力)

# 广告投放优化评测用例
# generated by hugo's coding agent

eval_ad_optimization = {
    "task": "诊断直通车计划表现并给出优化方案",
    "context": {
        "platform": "淘宝",
        "campaign_data": "近 14 天直通车分日报表 + 关键词报表 + 人群报表",
        "current_status": {
            "daily_budget": 3000,
            "avg_ppc": 2.8,
            "roi": 1.5,
            "target_roi": 3.0,
            "click_rate": "3.2%",
            "conversion_rate": "1.8%"
        }
    },
    "expected_output": {
        "required_sections": [
            "当前投放问题诊断(至少 3 个具体问题及数据佐证)",
            "关键词层面优化(删词/加词/调价的具体操作清单)",
            "人群溢价调整建议(各人群包的出价系数)",
            "创意优化方向(基于点击率数据)",
            "预期优化效果(调整后 ROI 预估及测算逻辑)"
        ]
    },
    "scoring": {
        "diagnosis_accuracy": 0.30,   # 问题定位是否命中真因
        "optimization_specificity": 0.30, # 建议是否具体到可直接操作
        "data_reasoning": 0.20,       # 每条建议是否有数据支撑
        "roi_projection": 0.10,       # 优化后 ROI 预估是否合理
        "platform_knowledge": 0.10    # 是否了解最新的投放产品功能
    }
}

场景五:客户分群与精准营销(用户运营能力)

给 Agent 一份脱敏的客户 RFM 数据(最近购买时间、购买频次、累计消费金额,约 1 万条),要求它:

  1. 设计客户分群模型(不少于 5 个层级)
  2. 每个层级给出标签定义、客户数量占比、典型画像
  3. 针对每个分群设计差异化触达策略(渠道、时机、内容、优惠力度)
  4. 给出"沉睡客户唤醒"专项方案,包括预期唤醒率和成本估算

评分标准:分群逻辑合理性(25%)、策略差异化程度(25%)、预期效果可量化(20%)、成本测算合理性(15%)、方案可执行性(15%)。

电商运营 Agent 的"一票否决"项

除了上面的常规评分,电商运营 Agent 有几条红线,触碰任意一条直接判定为不合格:

否决项说明为什么是红线
价格计算错误满减、折扣、优惠券叠加后的到手价计算有误直接影响利润,可能导致亏本销售
广告法违规使用"最"“第一"“国家级"等绝对化用语面临平台处罚甚至行政罚款
库存超卖建议活动方案中的预估销量超过实际可用库存超卖导致批量退款和店铺评分下降
平台规则违反建议的促销方式违反平台当期活动规则导致活动资格取消或店铺降权
数据口径混淆混淆 GMV 与实收、UV 与 PV 等基础概念基于错误数据做出的决策全部无效

评测数据准备建议

电商运营的评测数据相比其他岗位有一个天然优势:数据高度结构化,且容易脱敏。 具体操作:

  1. 导出真实数据: 从生意参谋、抖店罗盘等后台导出 CSV,将店铺名/商品名/客户信息替换为虚构值
  2. 保留数据分布: 脱敏时保持数据的统计特征(均值、方差、趋势),否则评测场景会失真
  3. 标注"金标准”: 让团队里最优秀的运营针对同一份数据产出一份标准答案,作为对照
  4. 覆盖季节性: 评测集应包含大促期、日销期、淡季等不同阶段的数据,避免只在某一类场景下测试

四、评测数据从哪来:三条实用路径

方法论有了,最大的难题是:评测数据从哪来?

路径一:从真实工作记录中抽取(推荐)

日常工作 → 脱敏 → 标注 → 评测集
  • 找到目标岗位表现最好的 3-5 个员工
  • 收集他们过去一个月的典型工作交付物
  • 脱敏后作为"标准答案”
  • 用同样的输入让 Agent 做一遍,对比差异

优点: 最贴近真实场景,评测结果最有参考价值。

成本: 高,需要岗位专家配合标注。

路径二:用 LLM 生成模拟任务(快速启动)

# 用 GPT-4/Claude 生成特定岗位的模拟评测数据
# generated by hugo's coding agent

prompt = """
你是一个有 10 年经验的电商运营总监。
请生成 5 个电商运营日常工作的评测场景,每个场景需要包括:
1. 任务背景描述
2. 提供给 Agent 的输入数据(模拟真实数据格式)
3. 期望的输出格式和内容
4. 评分标准(列出各维度及权重)

要求:
- 场景要覆盖数据分析、商品管理、营销推广、客户运营四个方向
- 难度分为简单/中等/困难三个级别
- 输入数据要足够具体,不能是笼统描述
"""

优点: 速度快,成本低,一天内可以搭建初版评测集。

缺点: 可能与真实场景有偏差,需要岗位专家 review。

路径三:众包 + 专家审核(规模化)

众包标注 → 专家审核 → 一致性检验 → 入库

适合需要大规模评测集的场景。众包解决数据量问题,专家审核解决质量问题,一致性检验(Kappa 系数 > 0.7)解决标注一致性问题。

五、评测的反模式:这些坑不要踩

在实践中,我见过太多评测做砸了的案例。总结几个典型反模式:

反模式一:“准确率焦虑症”

只盯着准确率一个数字,忽略了其他维度。一个准确率 95% 但每次回答都需要 30 秒的客服 Agent,不如一个准确率 88% 但 3 秒内回答的。响应速度、输出格式、交互体验,都是评测维度。

反模式二:“实验室环境自嗨”

在干净数据上测得很好,一遇到真实世界的脏数据就翻车。评测数据必须包含:

  • 模糊输入(“帮我看看那个数据”)
  • 错误输入(数据格式错误、信息矛盾)
  • 对抗输入(用户故意试探边界)
  • 多轮上下文切换(中途换话题再换回来)

反模式三:“一次评测定终身”

Agent 是动态系统——模型升级、Prompt 调整、知识库更新都会影响表现。评测应该是持续集成的一部分,不是一次性的验收。

每次发布 → 自动回归测试 → 核心指标对比 → 异常告警

反模式四:“自己评自己”

用 LLM 评判 LLM 的输出(LLM-as-Judge)很方便,但要注意偏差。最可靠的方案是:

评判方式           适用场景              可信度
──────────────────────────────────────────
人类专家评判       高风险决策            ★★★★★
人类 + LLM 混合    大规模评测            ★★★★
LLM 交叉评判       快速迭代              ★★★
单一 LLM 评判      内部 A/B 测试         ★★

六、一个可执行的落地路线

如果你明天就要开始做 Agent 评测,建议按这个顺序来:

第 1 周:定义岗位任务清单

  • 找到目标岗位的 3 个核心任务
  • 每个任务准备 5 个评测用例(1 简单 + 2 中等 + 2 困难)
  • 用路径二(LLM 生成)快速产出初版

第 2 周:跑第一轮评测

  • 让 Agent 跑一遍所有用例
  • 请岗位专家打分(1-5 分)
  • 记录所有"Agent 不及格"的用例,分析原因

第 3 周:迭代评测集 + 修复 Agent

  • 根据评测结果优化 Agent(Prompt、工具、知识库)
  • 根据专家反馈修正评测标准
  • 补充路径一(真实数据)的评测用例

第 4 周:建立持续评测流水线

  • 自动化评测脚本
  • 核心指标看板
  • 每次发版自动回归

总结

Agent 评测不是一道选择题——“好不好用"不能用一个分数来回答。它是一道论述题,答案因行业而异、因岗位而异、因任务而异。

三条核心原则:

  1. 分层评测: 通用能力是地基,行业知识是框架,岗位任务是装修。三层都要测,不能只看地基。
  2. 以岗位任务为锚点: 评测的终极标准不是"Agent 的能力有多强”,而是"这个岗位的活,Agent 干到什么水平"。
  3. 持续迭代: 评测体系和 Agent 一样,需要不断进化。今天的评测维度,三个月后可能需要重新设计。

最后一句话:如果你的 Agent 评测报告里没有出现任何一个具体岗位的名字,那这份报告大概率是给投资人看的,不是给用户看的。


See also