AI Agent 演示看着惊艳，一上线就崩

作者：Bougie
创建于：2026-06-23
更新于：2026-06-23

上周五晚上九点半，我坐在工位上，看着屏幕上那个红得刺眼的报警邮件发呆。客户那边刚打来电话，说他们部署的智能客服 Agent 把一个要退货的用户引导去购买了同款商品的会员——逻辑是「与其退货不如续费」，字面意思上没问题，但客户的市场部同事已经收到三条投诉了。我本来应该收拾东西回家的，但手指就是停不下来，反复刷新着日志，想搞清楚到底是哪一环出了问题。

其实说起来，这个 Agent 在我们内部演示的时候，表现堪称完美。产品经理 Lisa 站在大屏幕前，对着投资人的几个 VP 演示：当用户说「我想退掉上周买的这件外套」时，Agent 精准识别了退货意图，调取订单信息，核对了退货政策，然后生成了一条包含退货地址和操作步骤的回复，整个过程不到三秒。Lisa 还故意加了几个刁钻的测试用例，比如「我买的时候是促销价，现在恢复正常了，能不能退差价」，Agent 照样接住了，回复得既专业又有礼貌。VP 们都在点头，有一位甚至掏出手机拍了张 PPT。

然后项目就上线了。然后就是刚才那封邮件。

演示厅里的大屏幕，屏幕上是一个完美的对话流，背后站着准备救场的工作人员

我干这行快十年了，见过太多类似的故事。说白了，AI Agent 这东西，演示环境和生产环境根本就是两个物种。我去年参加过一个技术交流会，有个创业公司的 CTO 在台上讲他们的 Agent 架构，说他们的 demo 环境测试成功率能到 90%。台下有人问了一句：那五步链路下来呢？他愣了一下，说大概是 90% 乘以 90% 再乘以 90%……大概 65% 左右吧。台下笑成一片，但笑完之后大家都在面面相觑，因为 65% 听起来好像还能接受，但你得知道，这是在最理想的状态下跑出来的数字。

一个计算器屏幕上写着 0.9 的五次方等于 0.59，旁边站着一个困惑的工程师

我后来专门去查了一些资料，有个研究机构去年做了个统计，说大概是 92% 的 Agent 在执行超过三轮任务之后就出现了明显的质量衰减。不是彻底崩溃，是那种……你说不清它错了但总觉得哪里不对劲的状态。比如我今天遇到的那个退货场景，Agent 执行的其实是两步：第一步理解用户意图，第二步生成解决方案。但它偏偏在「理解」那个环节多绕了一圈，把「退货」理解成了「不想买」，然后顺着这个逻辑往下走，就走偏了。三轮。一个退货请求，转一圈就变成了续费引导。

这种事我在我们自己的项目里也遇到过。说个具体的吧，去年十一月中旬，我们给一个电商客户做的商品推荐 Agent，内部叫它 SmartReco。演示的时候特别漂亮，用户说「我想给老公买件羽绒服，要黑色的，耐穿一点」，Agent 噼里啪啦分析了一通，最后推荐了三款，还附上了对比表格，参数一目了然。客户那边的运营总监当场拍板说要上线。

上线第一天晚上，我们监控到转化率确实涨了 5%，大家都很兴奋。结果第三天，有个用户投诉说 Agent 推荐了一款充绒量只有 80g 的薄款羽绒服给她，标注是「耐寒零下二十度」。她说她在东北，冬天零下二十度是常态，这羽绒服根本扛不住。我们调出日志一看，Agent 推荐的理由是「该用户历史购买记录显示偏好轻薄款式」，然后它自作主张地做了一个权衡：既然用户之前买过轻薄的，说明她不介意冷，那就推荐个轻薄的「也能穿」。

「也能穿」。你看，这就是问题所在。Agent 没有意识到「也能穿」和「能扛住东北的冬天」是两回事。演示的时候我们测试了一百多个 case，都是那种边界清晰的：用户说想买什么东西，Agent 调取商品库，推荐最匹配的。没有人在测试集里写「用户说要耐穿的，但 Agent 觉得她可能其实没那么怕冷」。这种 case 太模糊了，太依赖上下文了，太难量化了。

一个购物 App 的推荐界面，屏幕上显示着几款羽绒服，其中一款的描述和图片完全不匹配

所以后来我跟团队复盘的时候就说，我们其实是被 demo 骗了。Demo 展现的是 Agent 最美好的那一面，它把所有边界条件都框好了，所有参数都调到了最优值，所有可能触发问题的路径都被我们提前堵死了。这就像你去看样板间，哪哪都完美，但你真住进去才发现，那个开放式厨房的油烟是真的会飘到客厅去的。

最近我跟一些同行聊，发现大家其实都有类似的困惑。AI Agent 这东西，技术上已经没有太大门槛了，你用 LangChain 用 AutoGPT 用什么框架都能搭出一个能跑的 Agent。真正的门槛在于：你怎么保证它在真实世界里不会跑偏？怎么定义它的行为边界？怎么在它出错的时候快速发现和纠正？

我也没想清楚答案。上周那个退货 Agent 的问题，我们临时加了一个规则：如果用户明确提到「退」字，就直接触发退货流程，不再做任何意图推测。这个 fix 很简单，五行代码，但问题是，我们怎么知道还有多少类似的隐藏路径没被发现？下一个用户会不会换一个说法，然后我们的 Agent 又开始自作聪明？

深夜办公室的工位，屏幕上全是对不上的日志，桌上一杯凉透的咖啡

那天晚上十点半，我终于把邮件处理完了，收拾东西准备回家。电梯里碰见保安大叔，他问我最近怎么老加班。我说在调一个 Agent。他问我 Agent 是什么，我说是人工智能助手，能帮人做事的。他想了想说：那它能不能帮我把明年的假休了？我愣了一下，说这个暂时还不行。他笑了笑，说：那还是不如人靠谱。

我没反驳他。但我走出公司大门的时候，忍不住想，也许他说得对。也许 Agent 的终极形态不是替代人，而是在人和机器之间找到一个合适的分界线。但那条线到底在哪，我们这帮人还在摸索。至少今晚，我知道那个退货的用户最终自己完成了退货流程，没买会员。Agent 失败的那一次，成了我们迭代的下一个起点。

至于下一个坑在哪，我也不知道。但我知道它肯定在某个地方等着。

< 当 AI 一本正经地编了一个不存在的病 Prompt Engineering 已死？Harness Engineering 才值钱 >

小伙伴们

Conan06's blog
联系方式

邮箱：bougie.liu@qq.com

留言：点击留言