AI 智能体落地，北看字节，南看阿里

竞争深入之后，这终究是一场零和博弈，还是版图互补？

撰文 | 赵卫卫

半个月前，腾讯集团汤道生带着团队到访了重庆一家短剧公司麦芽传媒；但是数日后，麦芽传媒的 CTO 李巍登上了字节跳动火山引擎 FORCE 原动力大会的舞台。

腾讯想要跟麦芽传媒在云服务、AI 技术应用、数字内容联合开发与智能分发上进行合作，而麦芽传媒 CTO 则公开表达，明年要跟火山引擎在 AI 漫剧和 AI 真人剧、短剧 AI 审核、AI 视频精修和播放器智能超分辨率上探索。

云厂商是短剧的「水电煤」，短剧是云厂商的「练兵场」，这是一种既是内容源，又是客户的共生关系。后知后觉的腾讯云能撬动火山引擎的客户吗？

很难替代，且不说红果短剧已经成为行业的绝对头部势力，腾讯元宝在视频模型能力上也落后同期的对手豆包和千问。

火山引擎总裁谭待在提到客户时特意说：「影视创作方面用大模型的进程比我们想象的快一些。之前想到应该很快，没想到能这么快，现在很多短剧、尤其是漫剧，还有各种 AD 素材，都在用。」

有提升的模型能力，搭配解锁的应用场景，最后才能给云厂商们带来源源不断的新客户。这是过去半年，豆包大模型日处理 Tokens 超过 50 万亿、增长 200% 的背后逻辑。

短剧正在成为云厂商们持续解锁的创新场景之一。不光是字节和腾讯，阿里千问 APP 也在最近上线了视频生成模型万相 2.6，「AI 小剧场」就是其中一个具体的玩法，具备音画同步、多镜头生成及声音驱动等多种功能。

阿里和字节是国内 AI 赛道最大的竞争对手，一个是 AI 云市场规模第一，一个是 AI 云市场加速度第一。

就在豆包大模型 1.8 发布之日，阿里千问 App 接入首个阿里生态场景高德，开始具备物理世界理解和行动能力，更强的 Agent（智能体）能力是它们共同的进化方向，它们瞄准了更细分的用户市场需求。

凭借各自的生态优势进行全产业链的 AI 布局，这是目前阿里和字节在 AI 竞争赛道中的状态，但随着竞争深入，这终究是一场零和博弈，还是版图互补？

多模态模型能力是赛点

豆包大模型日均 Tokens 使用量已突破 50 万亿，这是火山引擎「秀肌肉」，而真正的「亮剑」则是推出了豆包大模型 1.8 和视频生成模型 Seedance 1.5 Pro。

豆包大模型 1.8 的提升，主要在于给多模态 Agent 场景进行定向的优化，在上下文管理，多模态理解能力上增强，可落地到安防监控场景中，提升了模型在处理复杂任务时的规划与执行水平。

而用户可以在豆包和即梦 App 端体验到最新视频生成模型 Seedance 1.5 Pro 的能力，它已经实现音画同步，支持多人多语言对话，能对齐口型，覆盖四川话、粤语等中文方言、英文及小语种。

快手可灵率先在国内视频生成模型中取得成绩，2025 年预计将取得 10 亿元的收入。国内科技巨头纷纷在这一领域跟进，即梦商业化负责人杜子航在 AI 应用分论坛说：「即梦是全球仅次于 Sora 的创作平台，创作者超 10 万名」。

而更重要的是他透露了一组商业化数据，在即梦的真实应用场景中，占比 51% 的是专业平面设计，占比 30% 的是内容素材生产，而 C 端社交娱乐内容占比为 19%。也就是说，相比 C 端用户的占比，B 端专业用户的付费水平已经占比八成以上。

在底层模型 Seedance 1.5 Pro 加持下，即梦的产品能力进一步提升，包括节奏性情感表演、多样化主体和上下文感知等，在图片处理上也可以通过涂抹框选，进而有强保持能力和精准的响应范围，输出影视质感的图片。

多模态模型能力在过去一年竞争激烈，在调用量上增速很快，已经趋同于语音模型，这成为当下科技巨头们竞争的赛点。而根据杜子航介绍，面向 2026 年，即梦将在漫剧等多个领域发力，包括推出多人协作的团队版。

再反观阿里，最近也是在多模态模型领域不断布局，最新推出的视觉生成模型万相 2.6，集成音画同步、多镜头生成及声音驱动等能力，单次生成视频时长达到 15 秒，并引入了「分镜控制」与「角色扮演」功能，背后核心还是要追求专业影视制作和图像创作场景的市场空间。

从模型到应用，从硬件到产品，阿里最近在 AI 领域「拧油门」的状态就没有停过。

上线千问 APP 后，发布夸克 AI 眼镜，又成立千问 C 端事业群，而蚂蚁也在通过「灵光」应用和「蚂蚁阿福」等产品在健康等细分赛道进行拓展，密集曝光之后，「蚂蚁阿福」一度冲进苹果应用商店免费榜第三位。

如今在模型能力上都能实现「音画同步」，但阿里万相 2.6 和豆包 Seedance 1.5 Pro 差距有多大？这显然还需要时间和市场验证，火山引擎总裁谭待在提到这一功能时明确说，「Seedance 1.5 Pro 实现音画同步，在行业不算首创，但同行功能做了，不代表做好了。」

放在更大的背景中看，字节和阿里在多模态模型能力上的竞逐，一方面是对 B 端企业客户增长市场的必然追求，而另外一方面也是补齐跟国际同行的差距。

视频生成能够实现音画同步这一功能，是谷歌在今年 5 月份率先在 Veo3 上实现的，这给整个视频模型行业带来与之看齐的方向，让 AI 视频走出「默片时代」，指令遵循更好、保真度更高。

而在落地场景中，谷歌云业务也给全世界的同行们做出了示范。谷歌云凭借多模态的模型能力，先后拿下了英国广告公司 WPP 集团、维珍邮轮等多个企业级大客户，通过 Agent 融入客户公司业务，推动这些大企业 AI 营销平台加速人工智能转型，已经在国际市场中展开更大的圈地运动。

一场生态位与话语权的变革

对于 AI 云服务的客户们来说，能不能用 AI 模型能力和智能体应用重塑生产力，带来真切的降本增效，才是选择的最大标准，因为技术只是表面的护城河，而 ROI（投资回报率）才是真正的尺子。

而当 Agent 开始落地企业真实的场景中，安全性的保证是第一位的，而后才是效率的提升，谁能率先解决复杂任务的稳定性，谁才能通过客户的最终判断。

「第一款产品从 0 卖到 30 万台用了 250 天，而在火山引擎的支持下，第二代端到端语音模型的 AI 玩具卖到 30 万台，只用了 25 天，速度提升了 10 倍」，跃然创新（Haivivi）联合创始人高峰在火山引擎 FORCE 原动力大会上说。

跃然创新是一家 AI 玩具公司，今年 8 月发布了第二代产品 CocoMate 系列，这是搭载端到端语音模型的 AI 玩具。第二代产品的能力显著提升，主要是因为火山引擎豆包实时语音模型的支持，CocoMate 能识别语气、理解情绪，支持主动接话并随时被打断，响应速度压缩到 1 秒以内，而且可以在噪音环境中使用。

在模型能力的提升下，AI 玩具行业成为创造新需求的品类整体迎来了大发展。2026 年 1 月，跃然创新还将发布第三代 AI 玩具，这是一款奥特曼 AI 互动对话器，用户可以与奥特曼 AI 角色进行对话，还支持无限距离组队对讲等功能。

而在当下 AI 落地真实场景 Agent 为王的行业共识中，阿里和字节出现了哪些新需求新变化？

阿里 AI 的核心关键词，是体内循环的「一统」，让 C 端的需求汇集到一处。

不论是成立千问事业群，还是把千问打造成一款超级 App，本质都是要把阿里计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问，让其能通过 Agent 形式外链淘宝电商等细分场景中，让不同的需求对齐到一起。

比如高德此前有 AI 导航智能体，后来有直接对话的出行生活智能体「小高老师」，这都是存在于高德 App 内的核心交互模式，而接入了千问之后，在千问 App 内就可以实现基于高德的服务。

而字节的 AI 核心策略是体外循环的「下沉」，让 B 端客户的 AI 使用门槛更低。

在推出智能体统一交互入口 AgentSphere 时，火山引擎副总裁提到一个颠覆他认知的事情，那就是很多企业中的智能体不是太少，而是太多太散了，这也是造成 AI 低效的一个重要原因。所以无数个数字员工或是智能体，都将在 AgentSphere 得到统一的交互，需求不同的用户看到不同的定制看板，而不是千篇一律的对话框。

而为了降低用户使用门槛，豆包还拿出了豆包助手 API，让企业通过 API 开箱即用。也就是说，火山引擎为了下沉，卖的不光是模型，更是封装好的成熟产品体验。

参照谷歌 Gemini 3.0 带给对手 OpenAI 的压力，不光是因为谷歌证明了 AI 大模型的能力上升有极大的上限，另外一方面也证明了 AI 落地到公司具体业务中，能把搜索、广告和 Youtube 等多个业务生态串联起来，真正带来业务效率的提升，给市场看到了真正 AI 落地可能性。

从谷歌给中国同行带来的启示看，懂用户、更好用的 AI 产品很重要，但更重要的是 AI 能力如何准确服务当下的用户群体，这是一场技术变现效率的比拼，更是一场生态位与话语权的变革。

无论是豆包通过流量入口优势挖掘 B 端客户，还是阿里通过 B 端服务能力进入 C 端市场，本质上都是通过各自的优势地位进行 AI 全产业链的布局，各自的路径已经越来越清晰，现在阶段只是版图互补，而不远的未来可能就是一场零和博弈。

审校 | 陈秋霖

END

宙世代

一起剪

相关标签