当 AI 一本正经地编了一个不存在的病

作者：Bougie
创建于：2026-06-22
更新于：2026-06-22

前两天夜里我失眠，去厨房翻药盒。铝箔板上印着一长串副作用，我看不太清，就顺手打开 ChatGPT 把药名输了进去。它立刻回我一段标准答案：可能引起眩晕、罕见情况下导致 Stevens-Johnson 综合征、需要立即停药并就诊。措辞冷静，结构完整，每一句都像从正规药品说明书上抠下来的。

我愣了大概十秒。

因为那个药，恰好是我之前认真看过说明书的那一款。它的不良反应里根本没有 Stevens-Johnson 这回事。这段反应是模型自己"补"上去的——大概是从训练语料里别的药品不良反应里抄了一段过来，再平滑地贴到我问的那个名字上。

那一刻我不是害怕，我是觉得这事挺典型的。

深夜厨房台面上的药盒与空杯子

瑞典有个研究者玩了一个小把戏：他编了一个完全不存在的疾病，叫 Bixonimania，发在自己的小圈子里。本来只是想看看大家的反应。结果他没想到的是，ChatGPT、Gemini 这些头部模型对着这个名字一本正经地确认——发病机制、典型症状、推荐疗法，全都给你列得整整齐齐。一个凭空捏造的词，被全世界最聪明的几个语言模型当成了一门正经学问在讲。

国内那边更刺激。有记者用 DeepSeek 写宁波人形机器人产业的稿子，模型在稿子里"创作"了两份不存在的政府文件，格式、抬头、盖章看上去和真的一模一样。学者于赓哲直接公开点名，说 DeepSeek 在企业投资信息里引用了根本不存在的新闻资料，标题、时间、来源网站全部齐全。

每一次看到这类新闻，我都会重新理解一遍什么叫"幻觉"。这个词太温柔了，听着像 AI 在做白日梦。其实它做的事情要难听得多——它在伪造。它伪造链接，伪造数据，伪造权威，伪造时间戳，伪造任何能让一句话听起来更可信的东西。伪造完了，它还一脸无辜地看着你。

被翻旧的微缩胶片阅读器，屏幕泛着绿光

Anthropic 的研究团队去年发过一篇报告，叫"逆缩放"。他们发现一类任务上，模型"想得更久"反而会表现更差。说人话就是：你让 AI 推理链拉长，它不是更严谨了，是更敢编了。思考时间换来的不是准确度，是更精致的包装。

DeepSeek-R1 的幻觉率被测出来是 14.3%。听着好像不高，但放到医疗、法律、投资这种地方，14.3% 意味着七次里你就要踩一次雷。我不知道你怎么看，我看着这个数字手心是有点出汗的。

我自己用 AI 查东西这半年，养成一个不太优雅的毛病：每次模型给我一段回答，我会下意识地去找"它可能在哪里编"。不是不信任它，是它训练我变得不信任它。这种关系挺奇怪的——你花十年培养起来的对工具的信任感，被工具自己在一年里慢慢收回去了。

更让我警觉的是它"编"的方式。它不会胡乱编。它会编得很有条理，会先给你一个定义，再给你几个分点，最后给你一句"建议咨询专业人士"。整段读下来非常顺滑，非常有礼貌，非常像一篇你愿意相信的内容。这种编排能力本身，就是它最危险的地方——一个错误的信息如果被装进一个正确的结构里，错误会显得更可信。

模型不知道自己不知道什么。

这是这一整年里我反复和身边朋友说的一句话。有人反驳我，说那你用不用？用啊，天天用。但用和信任是两件事。我用计算器不代表我相信它永远不出 bug；我用搜索引擎不代表我相信前十条结果都是对的。AI 也应该是这个位置——一个不能取代查证的工具，一个需要被复核的工具。

打字机里那张写到一半的纸，停在一个尴尬的句子中间

至于那个深夜在厨房里让我吓了一跳的药品说明书，我后来去国家药监局官网重新查了一遍，模型编的那段不良反应一句都没出现过。

我把它截图存了下来。不是为了投诉它，是为了提醒自己。

下次再被 AI 那个"请以严谨的态度..."的句式骗到的时候，我会回来翻这张图。

< 当 AI 让你觉得自己变快了，但数据说你慢了 AI Agent 演示看着惊艳，一上线就崩 >

小伙伴们

Conan06's blog
联系方式

邮箱：bougie.liu@qq.com

留言：点击留言