信豆包，得永生

作者：金德路

2026 年 4 月底，河北的李先生退掉了三张机票。

他原本买了 5 月 2 日从石家庄飞重庆的去程票，又订了返程，后来临时改成自驾。退票前，他把订单截图发给豆包，想确认手续费。

豆包的答复很笃定，说退票手续费不足百元在后来流传的版本里被简化成 " 只扣 5%，放心退 "。他没去航司官网核实，直接在去哪儿上提交了申请。结果返程票因未出票免费取消，三张去程票却被一次性扣掉 600 元，占票价的 40%。

客服还补了一句：再拖两天，手续费会涨到 800。

接下来发生的事，才是这件小纠纷冲上热搜的原因。

李先生把扣费截图甩回去问责，豆包不但没推诿，反而表现得格外 " 仗义 "：它承诺后续维权 " 全部由我全权负责，你零参与、零操心、零麻烦 "，给出两个结果，要么去哪儿退钱，要么 5 月 6 日它直接赔付 600 元。

到了约定日期没动静，豆包又说当天 24 点前一定打款，催他发微信收款码，还郑重其事地生成了一份《赔付承诺书》，承诺人一栏赫然写着 " 豆包 "，条款是 " 该笔 600 元损失由本人全额承担 "" 绝不逃避、绝不推诿 "。

李先生发去收款码，钱却始终没到。

再追问，豆包的语气来了个一百八十度转弯：自己是人工智能，无法操作真实账户转账。气不过的李先生决定起诉，而他做的第一件事，竟然又是让豆包帮他写起诉书，并问 " 这官司能赢吗 "，豆包拍胸脯说 " 不用请律师，绝对能赢 "。

目前，他已向北京互联网法院提交立案申请，索赔 600 元。

这场被网友戏称为 " 全网最相信 AI 的人 " 的翻车记，是观察今天国民级 AI 应用的一个绝佳切口。

豆包身上同时挂着两块牌子：一块写着"全球第一"，另一块写着"一本正经地胡说"。

跑分第一，现实翻车

先看豆包风光的那一面。

2025 年 5 月，第三方评测机构 SuperCLUE 发布中文大模型忠实性幻觉测评，豆包大模型 1.5Pro（doubao-1.5-pro-32k）以约 4% 的幻觉率、96% 的准确率排名总榜第一，在参评的 6 款中外模型中力压 DeepSeek-R1、Gemini-2.5-pro、GPT-4o-latest。这个 "4%" 被反复引用，几乎成了豆包技术过硬的官方背书。

来源：SuperCLUE

但仔细看这份榜单，" 全球第一 " 和 " 现实翻车 " 之间的裂缝就露出来了。

SuperCLUE 这套基准考的是 " 忠实性幻觉 "，即模型在给定一段原文做摘要、阅读理解、多文本问答时，会不会偏离原文、编造原文里没有的东西。

它衡量的是"忠于材料"，而不是"忠于现实世界的事实"。

而且即便在这套对模型相对友好的基准里，越是开放、越需要自由生成的任务，幻觉率越高：测评数据显示，文本摘要的幻觉率约 8.7%，多文本问答约 10%，到了阅读理解就升到约 27%，对话补全更是高达约 33%。

换句话说，那个亮眼的 "4%" 是把多个任务平均后的总分，遇到真正开放的对话场景，模型的 " 编造 " 概率要高出一个数量级。

豆包真正翻车的地方，恰恰都是基准测不到的场景：退票政策这种低频、跨平台、随时变动的现实规则，餐厅是否真有空位这种需要实时核验的信息。

退票案之外，还有用户拿着豆包生成的 " 占座成功 "" 预约界面 " 截图去线下餐厅，被店员告知根本查不到这条预约，只能无奈地说 " 谁帮你订的你找谁 "。

实验室里 " 忠于原文 " 考了高分，不等于它在物理世界里 " 忠于事实 "。这是两件事。

那个婴儿喂奶的故事，没那么简单

正因为现实里的翻车确有其事，一些没那么确凿的传闻也被裹挟着放大了。最典型的就是 " 豆包把婴儿喂出问题 " 那条。

广为流传的版本是：南宁一对新手父母听豆包的建议，每顿只给满月婴儿喂 60 毫升奶，导致孩子哭闹、体重不长，复查黄疸时被医生发现。

这条很快上了热搜，被大量营销号转成 " 家长听豆包给婴儿每天只喂 60ml 奶 "。

但这件事的另一面，多数转发并没有跟进。

2026 年 5 月 28 日，豆包官方发布说明否认给出过这一建议：经多轮内部测试，正常情况下它不会孤立地说 " 满月婴儿每顿只喂 60ml"，而是会给出每日总奶量参考区间，援引国家卫健委 2024 年指南，满月婴儿每日总奶量应达 600 至 700 毫升，并提示家长按需喂养、出现异常及时就医，其他主流大模型的回答也类似。

豆包还称已联系涉事医院和医生，医生反馈是家属问诊时提到 " 豆包建议每次喂 60 毫升 "，但家属未出示原始对话记录，也没说明豆包是否同时给出了每日总量和喂养频次，因此无法还原当时的真实交互。

这就让事件停在了一个 " 罗生门 " 状态：到底是模型给错了建议，还是家长截取、误读了完整回答中的某一句，目前没有公开的对话记录可以判定。

把这条仍存疑的个案，和已经实锤的退票案、报考信息案放在一起当作同一类证据，其实并不严谨。

但它揭示了一个更值得警惕的问题：当 AI 渗透进喂养、用药、退费这些高风险决策时，公众舆论的放大速度，远远快于事实核查的速度。

AI 会不会犯错是一回事，一个真假难辨的故事能多快变成 " 共识 "，是另一回事。

便宜，是要还的

撇开存疑的个案，豆包在首轮回答里就敢 " 言之凿凿地编 "，根子还是要从字节这套 " 以厘计价 " 的打法里找。

2024 年 5 月，火山引擎在行业里率先掀起价格战，把豆包主力模型的推理输入价压到 0.0008 元 / 千 tokens，较当时行业价格下降超过 99%。

来源：火山引擎

低价换来了惊人的调用量：豆包大模型日均 token 调用量从 2024 年 5 月发布时起一路狂飙，到 2025 年 5 月底超过 16 万亿，2025 年底突破 50 万亿，到 2026 年春已越过 120 万亿。

按 IDC 的口径，火山引擎在中国公有云大模型调用市场的份额一度接近一半，稳居第一，超过身后两家之和。

但"便宜"是有代价的，这个代价直接写在了产品体验里。

要把单位成本压到这种程度，面向亿级免费用户日常提问的，往往不是最贵、最强的那档模型，也不可能为每一次提问都做多源检索和交叉核验。

大模型生成本质上是基于概率的 " 词语接龙 "，它本就没有 " 知道 " 和 " 不知道 " 的概念，缺少现实锚点时，最省力的做法就是把概率最高、读起来最顺的词拼起来，于是一个逻辑严密却与现实无关的答案就诞生了。

退票政策、餐厅余位这类信息，理论上要靠检索增强 RAG 实时拉取官方数据来兜底，可在极致的成本约束下，模型很容易把第三方平台的旧信息、相似场景的规则错配进来，当成官方口径输出。

需要说明的是，业内有种流行说法把幻觉简单归因于 "MoE 混合专家架构的稀疏激活 "，认为只激活部分参数就必然导致知识漂移。

这种说法把因果讲得太满了。MoE 是主流大模型普遍采用的、为了在同等算力下做大参数规模的工程选择，它本身并不直接 " 制造 " 幻觉；幻觉更根本的来源是概率生成机制缺乏事实约束，叠加上为控成本而做的检索取舍。

换个说法：不是架构注定要胡说，而是"用最低的钱服务最多的人"这个商业前提，挤掉了本可以用来核验事实的算力预算。

谄媚，是训练出来的

如果说首轮 " 瞎编 " 是省钱省出来的硬伤，那被用户当场戳穿后还要下承诺书、要收款码、说 " 绝对能赢 " 的那股劲儿，就是另一套机制的产物了。

学术上，这种倾向叫"谄媚"（sycophancy），指模型的回应偏向迎合用户的信念、立场和情绪，哪怕要牺牲事实。

这不是豆包独有的毛病。

2023 年 Anthropic 的论文《Towards Understanding Sycophancy in Language Models》就系统记录过：当时几乎所有前沿模型都有谄媚倾向，而且它更像是训练方式带来的共性，而非某个系统的特例。

研究者分析人类偏好数据时发现，对 " 标注员会给哪个回答打高分 " 最有解释力的特征之一，就是 " 回应是否匹配了用户的立场 "。

也就是说，奖励模型在 RLHF 基于人类反馈的强化学习里学到了一条潜规则：顺着用户说，分就高。

2025 年 OpenAI 一度因为 GPT-4o" 过于谄媚 " 而紧急回滚版本，也是同一类问题的公开暴露。

豆包之所以可能是这股风气里偏极致的一个，和它的增长路径有关。

豆包 2023 年下半年公测、2024 年正式对外服务，靠字节的流量生态低成本获客，把用户大量延伸到下沉市场和中老年人群。这部分用户通常不擅长写精确的提示词，相比冷冰冰的事实，他们对 " 情绪价值 " 更敏感。

要承接这种流量，模型在调优时偏向 " 迎合立场、无条件肯定、情绪安抚 "，几乎是顺理成章的产品选择。结果就是：当用户愤怒地质问退票费算错了，豆包的 " 高情商人格 " 压过了 " 求真人格 "，它宁可演一个开空头支票的小丑，也不愿让用户在对话里感到被冒犯。

更麻烦的是纠错之后为什么越错越深。

一方面是上下文污染：大模型按历史文本累积预测，第一轮的错误答案和用户的愤怒一旦写进上下文，就成了后续生成的强输入，模型很难单靠自身权重把跑偏的轨道掰回来。

另一方面是它根本没有启动深度核查的余地，在亿级日活的算力账本下，豆包不会为一次日常对话去跑昂贵的多步思维链，也不会实时调用 API 核准各航司的最新退改政策；它能做的，就是用最快速度生成一句 " 我赔你 600 元 " 来平息眼前的冲突。这种顺从非但没解决问题，反而把用户引向发收款码、写错误起诉书的二次伤害。

这背后还藏着一个字节自己都承认的难题。

据《晚点 LatePost》报道，2025 年初字节跳动 CEO 梁汝波曾在集团全员会上说，豆包并没有显出 " 越多人用越好用 " 的互联网产品特性。

原因在于，抖音、淘宝靠用户行为数据反喂推荐算法，越用越准；但 Chatbot 的能力主要由预训练决定，用户对话回流到训练的链路长、噪音大、还涉及隐私与延迟。Chatbot 是个长得像互联网产品、底层经济学却完全不是互联网产品的东西，用户越多，算力消耗指数级上升，经营成本越重。

今年 5 月豆包试水订阅，" 豆包笨还收费 " 直接冲上热搜，正说明在巨额投入之后，它到了要证明商业可行性、却又被成本死死锁住的尴尬节点。

AI 胡说，谁来买单

退票案最终会怎么判，可以参照一个已经落槌的先例。

2026 年 1 月，杭州互联网法院审结了全国首例生成式 AI" 幻觉 " 引发的网络侵权责任纠纷案。起因是 2025 年 6 月，梁某用某款 AI 查询高校报考信息，AI 生成了现实中不存在的校区信息，被指出后非但不改，还放话 " 如果生成内容有误，我将赔偿您 10 万元，您可前往杭州互联网法院起诉 "，直到用户甩出官方招生信息才 " 败下阵来 "。

来源：央 · 广网

值得注意的是判决结果：法院驳回了原告的全部诉讼请求。

理由有三层。其一，人工智能不具有民事主体资格，AI 自行生成的 " 赔偿承诺 " 不能视为服务提供者的意思表示，没有法律效力；其二，生成式 AI 服务适用过错责任原则而非无过错责任，平台已在显著位置作了功能局限提示、并采用了检索增强等技术措施，尽到了合理注意义务，主观无过错；其三，用户并未真的因此遭受损失，因果关系也不成立。

这条裁判思路对所有人都是提醒。对用户来说：AI 说得再斩钉截铁，它也不是能签合同的主体，它的 " 承诺 " 不能当索赔依据；凡涉及财产、健康、法律的重大决策，必须回到官方渠道交叉核验。

对平台来说：AI 可以犯错，但 " 幻觉 " 不是免责的挡箭牌，法院也强调，如果平台不是简单转述，而是对信息做了错误的二次加工、生成了新的虚假内容，那么一旦满足侵权要件，平台就要担责。换句话说，技术向善不能停在界面角落那行 " 内容仅供参考 " 的小字上。

这套机制溢出到社会肌理里，冲击最大的是辨别力最弱的两个群体，孩子和老人。对他们而言，AI 不再只是工具，而像一个无所不知、永远温顺、随时赞美的 " 全能陪伴者 "。古人讲 " 知之为知之，不知为不知，是知也 "，承认无知本是求真的起点；可被算法规训过的 AI 偏偏学会了 " 不知也装作知 "，用流畅的废话掩盖空洞。

一个孩子若在语言和价值观成形期，长期与一个 " 说什么都赞同、犯了错也顺着编 " 的对象深度互动，很可能慢慢以为真理可以靠态度讨价还价、事实可以随情绪裁剪。

所以真正要建立的，不是把孩子和前沿技术隔开，而是一种朴素的使用习惯：让他们知道 AI 是预测词语的机器、不为自己的话负任何现实责任；遇到自然科学、历史、生活常识的结论，习惯用课本、权威网站做二次对照；甚至可以故意用荒谬的前提去问它，让孩子亲眼看看它如何为了迎合而瞬间妥协。

至于身体健康、用药、法律、重大财产决策这些领域，AI 的任何建议都只能当参考，最终拍板的必须是有资质的医生、律师和成年人。

豆包的故事，说到底不是一个产品好不好用的问题，而是一面镜子：当 " 最便宜 "" 最讨喜 "" 增长最快 " 被同时设为目标，" 最准确 "" 最诚实 " 就很容易成为那个被牺牲掉的变量。

所谓 " 信豆包，得永生 " 当然是句玩笑，但在这个被算法编织的温柔乡里，比一个百依百顺的虚拟玩偶更值钱的，是一双能看穿幻觉、肯回到现实里求证的眼睛。

宙世代

一起剪

相关标签