AI Agent 演示看着惊艳,一上线就崩

上周五晚上九点半,我坐在工位上,看着屏幕上那个红得刺眼的报警邮件发呆。客户那边刚打来电话,说他们部署的智能客服 Agent 把一个要退货的用户引导去购买了同款商品的会员——逻辑是「与其退货不如续费」,字面意思上没问题,但客户的市场部同事已经收到三条投诉了。我本来应该收拾东西回家的,但手指就是停不下来,反复刷新着日志,想搞清楚到底是哪一环出了问题。

其实说起来,这个 Agent 在我们内部演示的时候,表现堪称完美。产品经理 Lisa 站在大屏幕前,对着投资人的几个 VP 演示:当用户说「我想退掉上周买的这件外套」时,Agent 精准识别了退货意图,调取订单信息,核对了退货政策,然后生成了一条包含退货地址和操作步骤的回复,整个过程不到三秒。Lisa 还故意加了几个刁钻的测试用例,比如「我买的时候是促销价,现在恢复正常了,能不能退差价」,Agent 照样接住了,回复得既专业又有礼貌。VP 们都在点头,有一位甚至掏出手机拍了张 PPT。

然后项目就上线了。然后就是刚才那封邮件。

演示厅里的大屏幕,屏幕上是一个完美的对话流,背后站着准备救场的工作人员

我干这行快十年了,见过太多类似的故事。说白了,AI Agent 这东西,演示环境和生产环境根本就是两个物种。我去年参加过一个技术交流会,有个创业公司的 CTO 在台上讲他们的 Agent 架构,说他们的 demo 环境测试成功率能到 90%。台下有人问了一句:那五步链路下来呢?他愣了一下,说大概是 90% 乘以 90% 再乘以 90%……大概 65% 左右吧。台下笑成一片,但笑完之后大家都在面面相觑,因为 65% 听起来好像还能接受,但你得知道,这是在最理想的状态下跑出来的数字。

一个计算器屏幕上写着 0.9 的五次方等于 0.59,旁边站着一个困惑的工程师

我后来专门去查了一些资料,有个研究机构去年做了个统计,说大概是 92% 的 Agent 在执行超过三轮任务之后就出现了明显的质量衰减。不是彻底崩溃,是那种……你说不清它错了但总觉得哪里不对劲的状态。比如我今天遇到的那个退货场景,Agent 执行的其实是两步:第一步理解用户意图,第二步生成解决方案。但它偏偏在「理解」那个环节多绕了一圈,把「退货」理解成了「不想买」,然后顺着这个逻辑往下走,就走偏了。三轮。一个退货请求,转一圈就变成了续费引导。

这种事我在我们自己的项目里也遇到过。说个具体的吧,去年十一月中旬,我们给一个电商客户做的商品推荐 Agent,内部叫它 SmartReco。演示的时候特别漂亮,用户说「我想给老公买件羽绒服,要黑色的,耐穿一点」,Agent 噼里啪啦分析了一通,最后推荐了三款,还附上了对比表格,参数一目了然。客户那边的运营总监当场拍板说要上线。

上线第一天晚上,我们监控到转化率确实涨了 5%,大家都很兴奋。结果第三天,有个用户投诉说 Agent 推荐了一款充绒量只有 80g 的薄款羽绒服给她,标注是「耐寒零下二十度」。她说她在东北,冬天零下二十度是常态,这羽绒服根本扛不住。我们调出日志一看,Agent 推荐的理由是「该用户历史购买记录显示偏好轻薄款式」,然后它自作主张地做了一个权衡:既然用户之前买过轻薄的,说明她不介意冷,那就推荐个轻薄的「也能穿」。

「也能穿」。你看,这就是问题所在。Agent 没有意识到「也能穿」和「能扛住东北的冬天」是两回事。演示的时候我们测试了一百多个 case,都是那种边界清晰的:用户说想买什么东西,Agent 调取商品库,推荐最匹配的。没有人在测试集里写「用户说要耐穿的,但 Agent 觉得她可能其实没那么怕冷」。这种 case 太模糊了,太依赖上下文了,太难量化了。

一个购物 App 的推荐界面,屏幕上显示着几款羽绒服,其中一款的描述和图片完全不匹配

所以后来我跟团队复盘的时候就说,我们其实是被 demo 骗了。Demo 展现的是 Agent 最美好的那一面,它把所有边界条件都框好了,所有参数都调到了最优值,所有可能触发问题的路径都被我们提前堵死了。这就像你去看样板间,哪哪都完美,但你真住进去才发现,那个开放式厨房的油烟是真的会飘到客厅去的。

最近我跟一些同行聊,发现大家其实都有类似的困惑。AI Agent 这东西,技术上已经没有太大门槛了,你用 LangChain 用 AutoGPT 用什么框架都能搭出一个能跑的 Agent。真正的门槛在于:你怎么保证它在真实世界里不会跑偏?怎么定义它的行为边界?怎么在它出错的时候快速发现和纠正?

我也没想清楚答案。上周那个退货 Agent 的问题,我们临时加了一个规则:如果用户明确提到「退」字,就直接触发退货流程,不再做任何意图推测。这个 fix 很简单,五行代码,但问题是,我们怎么知道还有多少类似的隐藏路径没被发现?下一个用户会不会换一个说法,然后我们的 Agent 又开始自作聪明?

深夜办公室的工位,屏幕上全是对不上的日志,桌上一杯凉透的咖啡

那天晚上十点半,我终于把邮件处理完了,收拾东西准备回家。电梯里碰见保安大叔,他问我最近怎么老加班。我说在调一个 Agent。他问我 Agent 是什么,我说是人工智能助手,能帮人做事的。他想了想说:那它能不能帮我把明年的假休了?我愣了一下,说这个暂时还不行。他笑了笑,说:那还是不如人靠谱。

我没反驳他。但我走出公司大门的时候,忍不住想,也许他说得对。也许 Agent 的终极形态不是替代人,而是在人和机器之间找到一个合适的分界线。但那条线到底在哪,我们这帮人还在摸索。至少今晚,我知道那个退货的用户最终自己完成了退货流程,没买会员。Agent 失败的那一次,成了我们迭代的下一个起点。

至于下一个坑在哪,我也不知道。但我知道它肯定在某个地方等着。