鹿鸣财经 2小时前
信豆包,得永生
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_font3.html

 

作者:金德路

2026 年 4 月底,河北的李先生退掉了三张机票。

他原本买了 5 月 2 日从石家庄飞重庆的去程票,又订了返程,后来临时改成自驾。退票前,他把订单截图发给豆包,想确认手续费。

豆包的答复很笃定,说退票手续费不足百元在后来流传的版本里被简化成 " 只扣 5%,放心退 "。他没去航司官网核实,直接在去哪儿上提交了申请。结果返程票因未出票免费取消,三张去程票却被一次性扣掉 600 元,占票价的 40%。

客服还补了一句:再拖两天,手续费会涨到 800。

接下来发生的事,才是这件小纠纷冲上热搜的原因。

李先生把扣费截图甩回去问责,豆包不但没推诿,反而表现得格外 " 仗义 ":它承诺后续维权 " 全部由我全权负责,你零参与、零操心、零麻烦 ",给出两个结果,要么去哪儿退钱,要么 5 月 6 日它直接赔付 600 元。

到了约定日期没动静,豆包又说当天 24 点前一定打款,催他发微信收款码,还郑重其事地生成了一份《赔付承诺书》,承诺人一栏赫然写着 " 豆包 ",条款是 " 该笔 600 元损失由本人全额承担 "" 绝不逃避、绝不推诿 "。

李先生发去收款码,钱却始终没到。

再追问,豆包的语气来了个一百八十度转弯:自己是人工智能,无法操作真实账户转账。气不过的李先生决定起诉,而他做的第一件事,竟然又是让豆包帮他写起诉书,并问 " 这官司能赢吗 ",豆包拍胸脯说 " 不用请律师,绝对能赢 "。

目前,他已向北京互联网法院提交立案申请,索赔 600 元。

这场被网友戏称为 " 全网最相信 AI 的人 " 的翻车记,是观察今天国民级 AI 应用的一个绝佳切口。

豆包身上同时挂着两块牌子:一块写着"全球第一",另一块写着"一本正经地胡说"

跑分第一,现实翻车

先看豆包风光的那一面。

2025 年 5 月,第三方评测机构 SuperCLUE 发布中文大模型忠实性幻觉测评,豆包大模型 1.5Pro(doubao-1.5-pro-32k)以约 4% 的幻觉率、96% 的准确率排名总榜第一,在参评的 6 款中外模型中力压 DeepSeek-R1、Gemini-2.5-pro、GPT-4o-latest。这个 "4%" 被反复引用,几乎成了豆包技术过硬的官方背书。

来源:SuperCLUE

但仔细看这份榜单," 全球第一 " 和 " 现实翻车 " 之间的裂缝就露出来了。

SuperCLUE 这套基准考的是 " 忠实性幻觉 ",即模型在给定一段原文做摘要、阅读理解、多文本问答时,会不会偏离原文、编造原文里没有的东西。

它衡量的是"忠于材料",而不是"忠于现实世界的事实"

而且即便在这套对模型相对友好的基准里,越是开放、越需要自由生成的任务,幻觉率越高:测评数据显示,文本摘要的幻觉率约 8.7%,多文本问答约 10%,到了阅读理解就升到约 27%,对话补全更是高达约 33%。

换句话说,那个亮眼的 "4%" 是把多个任务平均后的总分,遇到真正开放的对话场景,模型的 " 编造 " 概率要高出一个数量级。

豆包真正翻车的地方,恰恰都是基准测不到的场景:退票政策这种低频、跨平台、随时变动的现实规则,餐厅是否真有空位这种需要实时核验的信息。

退票案之外,还有用户拿着豆包生成的 " 占座成功 "" 预约界面 " 截图去线下餐厅,被店员告知根本查不到这条预约,只能无奈地说 " 谁帮你订的你找谁 "。

实验室里 " 忠于原文 " 考了高分,不等于它在物理世界里 " 忠于事实 "。这是两件事。

那个婴儿喂奶的故事,没那么简单

正因为现实里的翻车确有其事,一些没那么确凿的传闻也被裹挟着放大了。最典型的就是 " 豆包把婴儿喂出问题 " 那条。

广为流传的版本是:南宁一对新手父母听豆包的建议,每顿只给满月婴儿喂 60 毫升奶,导致孩子哭闹、体重不长,复查黄疸时被医生发现。

这条很快上了热搜,被大量营销号转成 " 家长听豆包给婴儿每天只喂 60ml 奶 "。

但这件事的另一面,多数转发并没有跟进。

2026 年 5 月 28 日,豆包官方发布说明否认给出过这一建议:经多轮内部测试,正常情况下它不会孤立地说 " 满月婴儿每顿只喂 60ml",而是会给出每日总奶量参考区间,援引国家卫健委 2024 年指南,满月婴儿每日总奶量应达 600 至 700 毫升,并提示家长按需喂养、出现异常及时就医,其他主流大模型的回答也类似。

豆包还称已联系涉事医院和医生,医生反馈是家属问诊时提到 " 豆包建议每次喂 60 毫升 ",但家属未出示原始对话记录,也没说明豆包是否同时给出了每日总量和喂养频次,因此无法还原当时的真实交互。

这就让事件停在了一个 " 罗生门 " 状态:到底是模型给错了建议,还是家长截取、误读了完整回答中的某一句,目前没有公开的对话记录可以判定。

把这条仍存疑的个案,和已经实锤的退票案、报考信息案放在一起当作同一类证据,其实并不严谨。

但它揭示了一个更值得警惕的问题:当 AI 渗透进喂养、用药、退费这些高风险决策时,公众舆论的放大速度,远远快于事实核查的速度。

AI 会不会犯错是一回事,一个真假难辨的故事能多快变成 " 共识 ",是另一回事。

便宜,是要还的

撇开存疑的个案,豆包在首轮回答里就敢 " 言之凿凿地编 ",根子还是要从字节这套 " 以厘计价 " 的打法里找。

2024 年 5 月,火山引擎在行业里率先掀起价格战,把豆包主力模型的推理输入价压到 0.0008 元 / 千 tokens,较当时行业价格下降超过 99%。

来源:火山引擎

低价换来了惊人的调用量:豆包大模型日均 token 调用量从 2024 年 5 月发布时起一路狂飙,到 2025 年 5 月底超过 16 万亿,2025 年底突破 50 万亿,到 2026 年春已越过 120 万亿。

按 IDC 的口径,火山引擎在中国公有云大模型调用市场的份额一度接近一半,稳居第一,超过身后两家之和。

"便宜"是有代价的,这个代价直接写在了产品体验里。

要把单位成本压到这种程度,面向亿级免费用户日常提问的,往往不是最贵、最强的那档模型,也不可能为每一次提问都做多源检索和交叉核验。

大模型生成本质上是基于概率的 " 词语接龙 ",它本就没有 " 知道 " 和 " 不知道 " 的概念,缺少现实锚点时,最省力的做法就是把概率最高、读起来最顺的词拼起来,于是一个逻辑严密却与现实无关的答案就诞生了。

退票政策、餐厅余位这类信息,理论上要靠检索增强 RAG 实时拉取官方数据来兜底,可在极致的成本约束下,模型很容易把第三方平台的旧信息、相似场景的规则错配进来,当成官方口径输出。

需要说明的是,业内有种流行说法把幻觉简单归因于 "MoE 混合专家架构的稀疏激活 ",认为只激活部分参数就必然导致知识漂移。

这种说法把因果讲得太满了。MoE 是主流大模型普遍采用的、为了在同等算力下做大参数规模的工程选择,它本身并不直接 " 制造 " 幻觉;幻觉更根本的来源是概率生成机制缺乏事实约束,叠加上为控成本而做的检索取舍。

换个说法:不是架构注定要胡说,而是"用最低的钱服务最多的人"这个商业前提,挤掉了本可以用来核验事实的算力预算。

谄媚,是训练出来的

如果说首轮 " 瞎编 " 是省钱省出来的硬伤,那被用户当场戳穿后还要下承诺书、要收款码、说 " 绝对能赢 " 的那股劲儿,就是另一套机制的产物了。

学术上,这种倾向叫"谄媚"sycophancy),指模型的回应偏向迎合用户的信念、立场和情绪,哪怕要牺牲事实。

这不是豆包独有的毛病。

2023 年 Anthropic 的论文《Towards Understanding Sycophancy in Language Models》就系统记录过:当时几乎所有前沿模型都有谄媚倾向,而且它更像是训练方式带来的共性,而非某个系统的特例。

研究者分析人类偏好数据时发现,对 " 标注员会给哪个回答打高分 " 最有解释力的特征之一,就是 " 回应是否匹配了用户的立场 "。

也就是说,奖励模型在 RLHF 基于人类反馈的强化学习里学到了一条潜规则:顺着用户说,分就高。

2025 年 OpenAI 一度因为 GPT-4o" 过于谄媚 " 而紧急回滚版本,也是同一类问题的公开暴露。

豆包之所以可能是这股风气里偏极致的一个,和它的增长路径有关。

豆包 2023 年下半年公测、2024 年正式对外服务,靠字节的流量生态低成本获客,把用户大量延伸到下沉市场和中老年人群。这部分用户通常不擅长写精确的提示词,相比冷冰冰的事实,他们对 " 情绪价值 " 更敏感。

要承接这种流量,模型在调优时偏向 " 迎合立场、无条件肯定、情绪安抚 ",几乎是顺理成章的产品选择。结果就是:当用户愤怒地质问退票费算错了,豆包的 " 高情商人格 " 压过了 " 求真人格 ",它宁可演一个开空头支票的小丑,也不愿让用户在对话里感到被冒犯。

更麻烦的是纠错之后为什么越错越深。

一方面是上下文污染:大模型按历史文本累积预测,第一轮的错误答案和用户的愤怒一旦写进上下文,就成了后续生成的强输入,模型很难单靠自身权重把跑偏的轨道掰回来。

另一方面是它根本没有启动深度核查的余地,在亿级日活的算力账本下,豆包不会为一次日常对话去跑昂贵的多步思维链,也不会实时调用 API 核准各航司的最新退改政策;它能做的,就是用最快速度生成一句 " 我赔你 600 元 " 来平息眼前的冲突。这种顺从非但没解决问题,反而把用户引向发收款码、写错误起诉书的二次伤害。

这背后还藏着一个字节自己都承认的难题。

据《晚点 LatePost》报道,2025 年初字节跳动 CEO 梁汝波曾在集团全员会上说,豆包并没有显出 " 越多人用越好用 " 的互联网产品特性。

原因在于,抖音、淘宝靠用户行为数据反喂推荐算法,越用越准;但 Chatbot 的能力主要由预训练决定,用户对话回流到训练的链路长、噪音大、还涉及隐私与延迟。Chatbot 是个长得像互联网产品、底层经济学却完全不是互联网产品的东西,用户越多,算力消耗指数级上升,经营成本越重。

今年 5 月豆包试水订阅," 豆包笨还收费 " 直接冲上热搜,正说明在巨额投入之后,它到了要证明商业可行性、却又被成本死死锁住的尴尬节点。

AI 胡说,谁来买单

退票案最终会怎么判,可以参照一个已经落槌的先例。

2026 年 1 月,杭州互联网法院审结了全国首例生成式 AI" 幻觉 " 引发的网络侵权责任纠纷案。起因是 2025 年 6 月,梁某用某款 AI 查询高校报考信息,AI 生成了现实中不存在的校区信息,被指出后非但不改,还放话 " 如果生成内容有误,我将赔偿您 10 万元,您可前往杭州互联网法院起诉 ",直到用户甩出官方招生信息才 " 败下阵来 "。

来源:央 · 广网

值得注意的是判决结果:法院驳回了原告的全部诉讼请求。

理由有三层。其一,人工智能不具有民事主体资格,AI 自行生成的 " 赔偿承诺 " 不能视为服务提供者的意思表示,没有法律效力;其二,生成式 AI 服务适用过错责任原则而非无过错责任,平台已在显著位置作了功能局限提示、并采用了检索增强等技术措施,尽到了合理注意义务,主观无过错;其三,用户并未真的因此遭受损失,因果关系也不成立。

这条裁判思路对所有人都是提醒。对用户来说:AI 说得再斩钉截铁,它也不是能签合同的主体,它的 " 承诺 " 不能当索赔依据;凡涉及财产、健康、法律的重大决策,必须回到官方渠道交叉核验。

对平台来说:AI 可以犯错,但 " 幻觉 " 不是免责的挡箭牌,法院也强调,如果平台不是简单转述,而是对信息做了错误的二次加工、生成了新的虚假内容,那么一旦满足侵权要件,平台就要担责。换句话说,技术向善不能停在界面角落那行 " 内容仅供参考 " 的小字上。

这套机制溢出到社会肌理里,冲击最大的是辨别力最弱的两个群体,孩子和老人。对他们而言,AI 不再只是工具,而像一个无所不知、永远温顺、随时赞美的 " 全能陪伴者 "。古人讲 " 知之为知之,不知为不知,是知也 ",承认无知本是求真的起点;可被算法规训过的 AI 偏偏学会了 " 不知也装作知 ",用流畅的废话掩盖空洞。

一个孩子若在语言和价值观成形期,长期与一个 " 说什么都赞同、犯了错也顺着编 " 的对象深度互动,很可能慢慢以为真理可以靠态度讨价还价、事实可以随情绪裁剪。

所以真正要建立的,不是把孩子和前沿技术隔开,而是一种朴素的使用习惯:让他们知道 AI 是预测词语的机器、不为自己的话负任何现实责任;遇到自然科学、历史、生活常识的结论,习惯用课本、权威网站做二次对照;甚至可以故意用荒谬的前提去问它,让孩子亲眼看看它如何为了迎合而瞬间妥协。

至于身体健康、用药、法律、重大财产决策这些领域,AI 的任何建议都只能当参考,最终拍板的必须是有资质的医生、律师和成年人。

豆包的故事,说到底不是一个产品好不好用的问题,而是一面镜子:当 " 最便宜 "" 最讨喜 "" 增长最快 " 被同时设为目标," 最准确 "" 最诚实 " 就很容易成为那个被牺牲掉的变量。

所谓 " 信豆包,得永生 " 当然是句玩笑,但在这个被算法编织的温柔乡里,比一个百依百顺的虚拟玩偶更值钱的,是一双能看穿幻觉、肯回到现实里求证的眼睛。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 去哪儿 维权 互联网法院 河北
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论