上个月参加一个 Agent 产品的内部评审,产品经理拿出一张 benchmark 表格:准确率 92%、响应时间 1.2 秒、幻觉率 3%。数字很漂亮,领导很满意。
然后我问了一个问题:“这个 92% 的准确率,是在什么任务上测的?”
回答是一组通用 QA 数据集。
我又问:“你的目标用户是电商运营,你有没有用电商运营真实工作场景的任务来测?”
会议室安静了五秒钟。
这就是今天 Agent 评测的核心矛盾:我们在用"通用考试"的成绩来预测"专业岗位"的表现。 这就像用高考数学成绩来判断一个人能不能当好外科医生——逻辑上不成立,但大家都在这么干。
[Read More]