老天保佑Qwen救救阿里巴巴

「金山银山前路有」

「同志们朋友们，版本回调了！

搞 AI 应用的家人们没活了。胜利女神的天平又一次倾向了大模型公司一边。有鉴于此，我们将复刻致敬葬 AI 一年前的系列——把模型公司挨个写一遍。

之前已经写过了 Kimi、智谱和豆包，其他模型公司敬请期待」

阿里巴巴是一家很神奇的公司。

现在 AI 火成这个样子。GLM 5.2 达到 Opus 4.8 水平，智谱彻底摆脱 2G 公司老教授组团爆金币的刻板印象，市值突破万亿港元，约等于 1/2 阿里。

我在做完第一期后，立即发现了 GLM 5.2 牛逼，同时发现的还有 Qwen 3.7 Max 也很牛逼，只比 GLM 差一点点，达到了 Opus 4.7 水平。

阿里的牛逼之处就在这里。Qwen 3.7 Max 是当之无愧的国模第二，显著领先字节的 Seed 2.1 Pro。

但是大伙就是认为阿里是一家老登公司。在模型牛逼的情况下，我们亲爱的阿里巴巴，股价就这么梦回十二年前，美美跌破发行价。

https://funeralai.cc/test/

这是因果啊家人们。

阿里往死里干美团小王，虽然小王一头白发，下罪己诏说股价崩了自己有很大责任，但阿里也没好日子啊。中高 P 年包直接缩水小一半好吧。

所以啊，到底干外卖还是 AI，这是阿里两条路线的斗争，不是外卖压倒 AI，就是 AI 压倒外卖。

道理很简单，全球科技巨头都 All in AI，但阿里还在干外卖，那空头不干你干谁。

好了，扯淡结束。让我们来正经论述一下阿里的 AI 业务。

阿里是一家喜欢搞组织改革的公司，它的 AI 业务也处在非常激烈的组织变动中。

首先是林俊旸出走，催化阿里搞出 Token 事业群（ATH），合并所有 AI 业务，将原属于阿里云、淘天等的 AI 业务划到新事业群里。

然后是在 ATH 事业群中成立 Token Foundry 事业部，合并了所有模型团队，由吴妈直接领导，老板直管大模型。

最近是文笔非常优美的《置身钉内》，催化了阿里合并 Agent 产品，钉钉老大换人，Mulerun 和悟空合并。

所以阿里目前的 AI 业务是这个情况。

ATH 事业群，下辖 Token Foundry 事业部、MaaS 事业部、千问 APP 事业部、悟空事业部和创新事业部。

Token Foundry 事业部，包含了 Qwen、Wan、Happy horse 等系列模型；

MaaS 事业部，最近把难用的百炼后台套壳为简洁的千问云；

千问 APP 事业部，主要是夸克团队在做的千问 APP；

悟空事业部，包含了钉钉和 2B Agent 悟空；

创新事业部，目前主要剩个 Qoder，之前在这的 MuleRun 刚和钉钉合并。

一目了然，阿里在大整合 AI 业务。

从组织、模型再到产品，逐步进行大整合。目标是实现一家公司、一个模型、一个产品。「阿里 -Qwen- 千问」三轴心。

问题要从千问 APP 说起。

众所周知，豆包 APP 断档式领先，其中最重要的因素可能是多模态。

大伙在聊天框里打字，那各个 Chatbot 就是没什么区别。考虑到 Qwen 模型好很多，千问 APP 理论上应该更聪明。但家人们用豆包也不需要多聪明啊。

我印象最深刻的两个豆包使用场景是：年初葬爱家族去通化滑雪，出租车司机一直开着豆包语音聊天，从俄乌战场一路聊到县城房价；

我家装修漏水，装修公司扯皮，我妈给豆包打电话，豆包找出了装修公司老板的联系方式，我妈电话打给老板，问题解决了。

这么好的功能，不抄真是可惜了。

令我震撼的是，千问 APP 其实是有语音视频功能的。但是藏在输入框上的工具栏里，你得猛猛左滑才能找出来。

藏这么深，说明不是千问 APP 想不到，更不是没能力搞多模态。单纯是坚信非共识，在给 Chatbot 加 Agent 能力上一路狂奔

除了做办公三件套这些基础能力外，还有打通淘宝、高德，让 Agent 帮你点奶茶、订餐馆、打车等一系列能力 aka 千问办事。

首先，这是创新，要肯定的。像前两天热炒的豆包谎称可以打电话订餐馆，其实千问 APP 几个月前就有这功能，真可以让 AI 打电话订餐。

但问题是，涉及到跨 APP 的工具调用会带来严重的任务成功率低的问题。更重要的是，Chatbot 是一阶能力，Agent 是二阶能力，之间的漏斗可能筛掉 90% 的人。

一阶能力都没补全，想靠未经验证的二阶能力弯道超车，着实平地干拔。

当然也有可能，千问产品经理在大气层。赌的是大模型 Agentic 能力快速上涨，这些复杂任务越来越流畅。

这些都是产品细节问题。最重要的是，千问 APP 推出得太晚了。

豆包 APP 从 23 年开始干，25 年中上线了视频通话功能。等到 25 年底，豆包表情包、二创视频满天飞了，千问 APP 才上线。之前的通义和夸克这俩 APP，约等于合并后从头再来。

所以，从错过豆包的经验教训，你可以理解阿里今天干的所有事——要合并，要力出一孔，要集中力量做 AI。

不过好消息是，AI 行业整体版本更新了。大伙发现豆包也不挣钱，或者说 2C 的 AI 应用就是不挣钱。

唯一的由邪恶的 Anthropic 验证出来的 AI 挣钱路径是，卷编程能力，面向生产力场景。只要模型能力足够牛逼，自然有大把人求着送钱。

最鲜活的例子就是智谱，收入多少完全不重要，只要 GLM 能打穿编程场景，追上 Opus 4.8，那它就值得半个阿里。

就像是智谱老板唐杰说的那样，「AI 时代的本质就是技术的快速进步——当你停下来打磨产品，可能第二天就发现底层技术已经落后、产品已经没人用；当你停下来思考商业模式，AI 世界已经再次被颠覆。」

所以，一切还是回到模型能力上。

只要 Qwen 模型能够持续领先，那它的生产力 Agent 如 Qoder work 等，做好是很自然的事情。

如智谱故事。因为 GLM 会员难抢，所以很多人下载智谱的 Agent 产品 Zcode。这里要表扬智谱一句，抄 Codex 是对的，不像 Kimi work 抄都抄错对象，抄了产品一坨的 Claude cowork。

如 Seedance 故事。只要模型能力够强，自然有冕神和 LibTV 这样的分销商，竭尽全力自己补贴，帮火山引擎冲业绩。小云雀、即梦的视频 Agent 做得怎么样，根本不重要好吧。

所以，问题回到了如何评价 Qwen 上。

好消息是，Qwen 确实是领先的。坏消息是，总差那么一点点。

你从 Qwen 的模型发布上都能看出来，阿里老板对 Qwen 最重要的期待就是打穿一个点，彻底破圈，让人民群众觉得 Qwen 牛逼。

为此，Qwen 3.7 Max 和 GLM 一样舍弃了多模态能力，专注编程和长程任务场景。

但就差一点点。你从智谱自己跑的 Benchmark 都能看出来，Qwen 在好几项测试得分是持平或超越 GLM、Opus 的。两者实际能力差距可能不到一个百分点。

但就是这一点点差距，决定了 GLM 是国模第一。在 Fable 5 被限制的这一个月里，GLM 也是世界人民能自由用上的最强大模型。

第一的奖赏远远大于第二名。这段时期所有人都在讨论智谱，没有人讨论 Qwen。

所以啊，存在一个国模临界点。

当一个大模型的能力能够持平 A 畜 O 社的旗舰模型，或者开源出类似 CoT 那样超乎绝伦的产品形态时，整个世界的注意力都会集中到这个模型上，它会被赋予挑战邪恶科技巨头垄断的骑士大战恶龙一样的角色。

我问一个炒股老哥，要是年底 Qwen 率先超越 Fable 5，阿里股价能拉 20 个点吗？老哥第一反应是，别说 20 个点，100 个点问题不大。

我对 Qwen 还是非常乐观的。因为两者最新模型能力非常接近，而 Qwen 3.7 Max 比 GLM 5.2 早发布了一个月，并且 Qwen 的更新频率比 GLM 略快。

所以，下一代 Qwen 模型大概率能够领先 GLM，成为国模第一。

但问题就出在这里。

Qwen 现在就很牛逼，短期内大概率突破临界点，但这代表阿里巴巴集团会遵循一种线性关系变得伟大起来吗？

所以问题又回到了，Qwen 牛逼不代表阿里股价要涨。因为大伙心中阿里不是一家纯粹的 AI 公司，它还在打烂仗。

顺便插一句，作为阿里股东，这里我要点名批评 Happy horse。

成天刷榜骗哥们可以，别把自己骗了。视频模型刷榜是没用的，因为视频好坏大伙一眼能看出来。Happy horse 生成的画面油成那样，你说自己超过 Seedance 是没人信的。

这是一个常识问题，不要成天考验大伙的常识。

最后抽象地总结一下吧。

ChatBot 是第一阶段的竞争。第二阶段的竞争，生产力 Agent，才刚刚开始。

你能明显发现，阿里和字节两家的 Agent 产品，都还在赛马。字节有豆包专业版、Trae work、Coze 和飞书的一堆 Agent。阿里有千问桌面版、Qoder work，Mulerun 刚和钉钉悟空合并。

显然，这种状态不可能持续多久。之后的情况一定是 BAT 各自合并出一个 Agent 产品。

这方面，腾讯吃了元宝和模型不行的红利，不用纠结，主推 Workbuddy 就行。

相比起 ChatBot，Agent 产品更加考验模型的长程任务能力。字节的基模能力不行会成为一个更大的问题。

大伙的潜意识会因为豆包产品强而滤镜 Seed 模型。但 Seed 2.1 Pro 事实上是二流国模水平，落后 GLM、Qwen 和 Kimi，和我们亲爱的 MiniMax M3 水平接近。

这也是一个很好玩的问题，为什么字节产品和视频模型无敌，而 Seed 基模一直没做起来？

经过我的一番思考，原因很可能是：Seed 团队太火了，外界预期太高，总有人撺掇研究员出去创业，动摇军心。

反观做出大结果的 Deepseek、Seedance 和 GLM，都是之前没什么人关心，团队可以专注地猥琐发育 aka 边缘创新，模型能力逐步突破临界点，外界后知后觉猛然意识到这团队憋了个大的。

这是一个组织问题。

即便 Seed 工资很高，豆包股猛猛发。但总不能让研究员们人均开上法拉利。而创业 bro 真有人开上法拉利。投资人拿这些诱惑你，确实难顶。

归根结底还是，大模型是一个工程问题，依靠整个团队都纯粹专注努力，那些可恶的投资人（特指两家盯着字节的 VC 和 FA）和竞对成天挖人干扰军心可不行。

另一个原因是，C 端产品做得好，对模型的编程能力不一定是促进。你看掌握了充足 C 端数据的公司，谷歌、Grok、Meta，模型一个比一个拉。

众所周知，豆包产品团队自己做了很多后训练，音视频功能背后也不止一个模型。产品做得好，团队话语权大，模型团队自然多一个爹。爹强儿弱很合理。

所以啊，阿里外界形象拖累人民群众对 Qwen 的预期，这真的是福报，要珍惜。

（本文封面由 ChatGPT 生成，纯人工写作，顺便点一首歌）

⬇️

欢迎订阅我们的 Substack

funeralai.substack.com

宙世代

一起剪

相关标签