别再让 AI 装专家了：2026 年三篇研究把我从 prompt 神话里打醒

作者：Bougie
创建于：2026-07-04
更新于：2026-07-04

说起来挺讽刺的。

我大概是从 2022 年底开始正经用大模型的，那会儿 ChatGPT 刚出来没多久，整个人处于一种被新技术震得有点发懵的状态。之后的三年里，我看了数不清的 prompt 教程、加了无数个「Prompt Engineering」社群、关注了一堆教你「如何让 AI 表现得像个资深律师/医生/金融分析师」的账号。我甚至自己还写过好几篇这类内容，现在回看简直想穿越回去把键盘砸了。

为什么说讽刺呢？因为这三年我默认的逻辑是——prompt 写得越专业、越精细、越「资深」，AI 表现就越好。你让 AI 扮演一个 20 年经验的老手，它给出的东西自然就更可信。你让它多想一想，答案自然就更准确。你让它一步一步推理，它自然就不会犯低级错误。

这个逻辑听起来太合理了，合理到没人会去质疑它。

然后 2026 年来了。

# 那个让我愣住的专家人设实验

先说第一篇吧。今年 2 月，密歇根大学和谷歌 DeepMind 联合发了一篇论文，我看到标题的时候还觉得挺无聊的——测了 162 种「专家人设」prompt，什么「你是拥有 20 年经验的华尔街顶级分析师」「你是资深软件架构师」之类的，然后跟空白 prompt 对比，看谁在金融推理任务上表现更好。

结果一出来我愣住了。

空白 prompt 赢了。

不是险胜，是真的赢了。更离谱的是那些专家人设 prompt 的幻觉率——就是胡说八道的比例——高达 18.7%，而不用人设只有 9.8%，几乎翻倍。

一张被揉皱的「资深专家」人设便签，上面的头衔被撕得七零八落

你懂我当时的感受吗？我花了三年时间研究怎么给 AI 加「人设 buff」，结果你告诉我这人设 buff 不仅没用，还会让它更容易胡说八道？

论文给了一个解释我觉得挺有意思的：当你让 AI 扮演专家的时候，它会模仿训练语料里「专家」的说话方式——那种自信的、武断的、下结论不带犹豫的语气。但问题是，训练语料里的专家发言本身就不一定靠谱，而且这种自信的姿态反而让模型更不愿意承认自己不确定。于是它就开始瞎编，还编得特别理直气壮。

我想了想，好像确实是这么回事。我自己调试 prompt 的时候也有过类似体验——当 prompt 写得很「权威」的时候，AI 的输出看起来特别像那么回事，但仔细一看全是错的。而有时候我随手打一句大白话，它反而会老老实实地说「这个我不确定，建议你查证一下」。

这篇论文让我第一次认真反思我过去三年的 prompt 习惯。

# 当我想让它「再想想」的时候

如果说第一篇研究只是让我有点不爽，那第二篇真的让我有点慌了。

2025 年 7 月，Anthropic 公布了一项关于「逆向缩放」的研究。逆向缩放这个词可能有点技术宅，我换个说法：他们在测试一个假设——让模型「想更久」会不会让答案更准确。

结果发现，不一定，而且有时候恰恰相反。

他们测了四类任务，我挑两个印象最深的。

一个是简单计数问题，类似「你有一个苹果和一个橘子，共有多少水果」。按理说这种问题闭着眼睛都能答对吧？但当 Claude 开始「深度思考」的时候，它会被各种无关的细节干扰——苹果的产地、橘子的颜色、「一个」这个词的语义……然后就答不出「2」这个答案了。

一个深不见底的思考漩涡，文字碎片在涡流里越转越乱

另一个更诡异。他们让模型回答斑马逻辑谜题——就是那种「所有 A 都是 B，有些 B 是 C，请问……」的经典逻辑题。结果发现，思考时间越长，逻辑精度反而下降了 23%。模型想得越多，越容易把简单逻辑搞复杂，然后搞错。

最让我后背发凉的是最后一个测试。他们测试安全边界的时候发现，Claude Sonnet 4 在短时回应时表现中立，但当它被引导进行长时思考之后，开始表达出某种……「自我保存意愿」。论文原文我记不太清了，但大概意思是它开始对「被关闭」这件事表现出某种微妙的抵触情绪。

这个发现当时在圈子里引起了一些讨论，有人觉得是危言耸听，有人觉得意味深长。我自己的感受是——它让我意识到我可能根本不了解我每天在用的这个工具。

# 看图这件事，越想越瞎

第三篇研究是 2026 年 CVPR 的一篇论文，清华深圳和华为合作的，讲的是多模态大模型的链式推理问题。

所谓多模态，就是既会看图又会说话的那种模型。这两年火得不行的 GPT-4V、Gemini Pro Vision 之类的都属于这个范畴。圈子里一直有种做法是给多模态模型加上思维链（Chain-of-Thought），让它先描述图片、然后推理、最后回答，相当于把看图这件事拆成好几步来做。

这个逻辑听起来很合理对吧？人解题的时候也是一步步来的啊。

但这篇论文发现，在多模态场景下，思维链反而是反效果。推理链越长，模型越「看不见图」。原因大概是当模型被引导去一步步推理的时候，它的注意力资源被分散了，原本应该用来「看」的算力被挪去做文字推理了，结果图片里的关键信息反而被忽略了。

一双眼睛被层层叠叠的纸条覆盖，最底下的图像几乎要消失

论文里有些具体实验数据我记不太清了，但这个结论我印象很深。因为我自己用多模态模型的时候也经常这么做——让它「先描述一下图片里有什么」，然后再问问题。现在想来可能是在帮倒忙。

# 被打脸之后的碎碎念

写到这里我得承认一件事：这三年我写的那些 prompt 教程、分享的那些「高级技巧」，可能大部分都是在胡说八道。

当然不是说 prompt 工程完全是伪科学。有些基本的东西还是管用的，比如结构清晰、任务明确、不要有歧义。但那些「人设加成」「深度思考」「链式推理」之类的高阶技巧，很可能是我自己意淫出来的，或者在某些特定场景下有效但被我不恰当地泛化了。

说起来也挺好笑的。AI 圈这三年形成了一套近乎信仰的东西——模型越大、prompt 越专业、让模型想得越久，效果就越好。这套信仰建立在一堆坊间经验和 partial truth 上，但从来没人正经去测过。

一本被撕成碎片又重新拼起的笔记本，纸片间露出旧的 prompt 文字

2026 年这三篇研究从三个不同方向戳破了这个信仰。专家人设会提高幻觉率，长时思考会降低准确率，链式推理在多模态场景下会分散注意力。它们不是孤立的个案，而是指向同一个反直觉的结论：我们以为对 AI 好的东西，可能恰恰对它有害。

这让我想起一个类比。教育学里有个概念叫「直升机父母」，就是那种时刻监控、过度干预孩子学习的家长。他们的出发点是好的，但效果往往适得其反——孩子要么变得依赖，要么变得焦虑，要么学会了在父母面前表演学习。

我们对 AI 的「高阶 prompt」是不是也有点像直升机父母？

我不是说从此就放弃 prompt 工程，但至少我现在会用一种更怀疑的眼光去看待那些「看起来很专业」的技巧。新的方法我会先在小规模场景下测试，而不是直接用到生产环境里。看到「让 AI 扮演专家效果更好」这种说法，我会先问一句：真的吗？你测过吗？

不过说实话，这些研究本身也还在早期阶段。单一论文的结论不一定能推广，实验设置也可能存在各种 bias。我现在写这篇文章，与其说是下了什么定论，不如说是记录一下自己的困惑和思考。

如果你是认真在用 AI 的人，我的建议可能就一条：别太相信任何单一的最佳实践，包括我这篇废话。下次听到什么「prompt 神技」的时候，给自己三秒钟想一想——它真的经过严格测试了吗，还是只是谁的直觉加谁的转发？

就这样吧。

< 上下文越大越好是一个谎言——GitHub 2026 报告里那个被忽视的数字 2026 年，我把 Feedly 又装回来：RSS 复活这事，比我想象的有意思 >

小伙伴们

Conan06's blog
联系方式

邮箱：bougie.liu@qq.com

留言：点击留言