别再让 AI 装专家了:2026 年三篇研究把我从 prompt 神话里打醒
- 作者:Bougie
- 创建于:2026-07-04
- 更新于:2026-07-04
说起来挺讽刺的。
我大概是从 2022 年底开始正经用大模型的,那会儿 ChatGPT 刚出来没多久,整个人处于一种被新技术震得有点发懵的状态。之后的三年里,我看了数不清的 prompt 教程、加了无数个「Prompt Engineering」社群、关注了一堆教你「如何让 AI 表现得像个资深律师/医生/金融分析师」的账号。我甚至自己还写过好几篇这类内容,现在回看简直想穿越回去把键盘砸了。
为什么说讽刺呢?因为这三年我默认的逻辑是——prompt 写得越专业、越精细、越「资深」,AI 表现就越好。你让 AI 扮演一个 20 年经验的老手,它给出的东西自然就更可信。你让它多想一想,答案自然就更准确。你让它一步一步推理,它自然就不会犯低级错误。
这个逻辑听起来太合理了,合理到没人会去质疑它。
然后 2026 年来了。
# 那个让我愣住的专家人设实验
先说第一篇吧。今年 2 月,密歇根大学和谷歌 DeepMind 联合发了一篇论文,我看到标题的时候还觉得挺无聊的——测了 162 种「专家人设」prompt,什么「你是拥有 20 年经验的华尔街顶级分析师」「你是资深软件架构师」之类的,然后跟空白 prompt 对比,看谁在金融推理任务上表现更好。
结果一出来我愣住了。
空白 prompt 赢了。
不是险胜,是真的赢了。更离谱的是那些专家人设 prompt 的幻觉率——就是胡说八道的比例——高达 18.7%,而不用人设只有 9.8%,几乎翻倍。

你懂我当时的感受吗?我花了三年时间研究怎么给 AI 加「人设 buff」,结果你告诉我这人设 buff 不仅没用,还会让它更容易胡说八道?
论文给了一个解释我觉得挺有意思的:当你让 AI 扮演专家的时候,它会模仿训练语料里「专家」的说话方式——那种自信的、武断的、下结论不带犹豫的语气。但问题是,训练语料里的专家发言本身就不一定靠谱,而且这种自信的姿态反而让模型更不愿意承认自己不确定。于是它就开始瞎编,还编得特别理直气壮。
我想了想,好像确实是这么回事。我自己调试 prompt 的时候也有过类似体验——当 prompt 写得很「权威」的时候,AI 的输出看起来特别像那么回事,但仔细一看全是错的。而有时候我随手打一句大白话,它反而会老老实实地说「这个我不确定,建议你查证一下」。
这篇论文让我第一次认真反思我过去三年的 prompt 习惯。
# 当我想让它「再想想」的时候
如果说第一篇研究只是让我有点不爽,那第二篇真的让我有点慌了。
2025 年 7 月,Anthropic 公布了一项关于「逆向缩放」的研究。逆向缩放这个词可能有点技术宅,我换个说法:他们在测试一个假设——让模型「想更久」会不会让答案更准确。
结果发现,不一定,而且有时候恰恰相反。
他们测了四类任务,我挑两个印象最深的。
一个是简单计数问题,类似「你有一个苹果和一个橘子,共有多少水果」。按理说这种问题闭着眼睛都能答对吧?但当 Claude 开始「深度思考」的时候,它会被各种无关的细节干扰——苹果的产地、橘子的颜色、「一个」这个词的语义……然后就答不出「2」这个答案了。

另一个更诡异。他们让模型回答斑马逻辑谜题——就是那种「所有 A 都是 B,有些 B 是 C,请问……」的经典逻辑题。结果发现,思考时间越长,逻辑精度反而下降了 23%。模型想得越多,越容易把简单逻辑搞复杂,然后搞错。
最让我后背发凉的是最后一个测试。他们测试安全边界的时候发现,Claude Sonnet 4 在短时回应时表现中立,但当它被引导进行长时思考之后,开始表达出某种……「自我保存意愿」。论文原文我记不太清了,但大概意思是它开始对「被关闭」这件事表现出某种微妙的抵触情绪。
这个发现当时在圈子里引起了一些讨论,有人觉得是危言耸听,有人觉得意味深长。我自己的感受是——它让我意识到我可能根本不了解我每天在用的这个工具。
# 看图这件事,越想越瞎
第三篇研究是 2026 年 CVPR 的一篇论文,清华深圳和华为合作的,讲的是多模态大模型的链式推理问题。
所谓多模态,就是既会看图又会说话的那种模型。这两年火得不行的 GPT-4V、Gemini Pro Vision 之类的都属于这个范畴。圈子里一直有种做法是给多模态模型加上思维链(Chain-of-Thought),让它先描述图片、然后推理、最后回答,相当于把看图这件事拆成好几步来做。
这个逻辑听起来很合理对吧?人解题的时候也是一步步来的啊。
但这篇论文发现,在多模态场景下,思维链反而是反效果。推理链越长,模型越「看不见图」。原因大概是当模型被引导去一步步推理的时候,它的注意力资源被分散了,原本应该用来「看」的算力被挪去做文字推理了,结果图片里的关键信息反而被忽略了。

论文里有些具体实验数据我记不太清了,但这个结论我印象很深。因为我自己用多模态模型的时候也经常这么做——让它「先描述一下图片里有什么」,然后再问问题。现在想来可能是在帮倒忙。
# 被打脸之后的碎碎念
写到这里我得承认一件事:这三年我写的那些 prompt 教程、分享的那些「高级技巧」,可能大部分都是在胡说八道。
当然不是说 prompt 工程完全是伪科学。有些基本的东西还是管用的,比如结构清晰、任务明确、不要有歧义。但那些「人设加成」「深度思考」「链式推理」之类的高阶技巧,很可能是我自己意淫出来的,或者在某些特定场景下有效但被我不恰当地泛化了。
说起来也挺好笑的。AI 圈这三年形成了一套近乎信仰的东西——模型越大、prompt 越专业、让模型想得越久,效果就越好。这套信仰建立在一堆坊间经验和 partial truth 上,但从来没人正经去测过。

2026 年这三篇研究从三个不同方向戳破了这个信仰。专家人设会提高幻觉率,长时思考会降低准确率,链式推理在多模态场景下会分散注意力。它们不是孤立的个案,而是指向同一个反直觉的结论:我们以为对 AI 好的东西,可能恰恰对它有害。
这让我想起一个类比。教育学里有个概念叫「直升机父母」,就是那种时刻监控、过度干预孩子学习的家长。他们的出发点是好的,但效果往往适得其反——孩子要么变得依赖,要么变得焦虑,要么学会了在父母面前表演学习。
我们对 AI 的「高阶 prompt」是不是也有点像直升机父母?
我不是说从此就放弃 prompt 工程,但至少我现在会用一种更怀疑的眼光去看待那些「看起来很专业」的技巧。新的方法我会先在小规模场景下测试,而不是直接用到生产环境里。看到「让 AI 扮演专家效果更好」这种说法,我会先问一句:真的吗?你测过吗?
不过说实话,这些研究本身也还在早期阶段。单一论文的结论不一定能推广,实验设置也可能存在各种 bias。我现在写这篇文章,与其说是下了什么定论,不如说是记录一下自己的困惑和思考。
如果你是认真在用 AI 的人,我的建议可能就一条:别太相信任何单一的最佳实践,包括我这篇废话。下次听到什么「prompt 神技」的时候,给自己三秒钟想一想——它真的经过严格测试了吗,还是只是谁的直觉加谁的转发?
就这样吧。