
竞争深入之后,这终究是一场零和博弈,还是版图互补?
撰文 | 赵卫卫
半个月前,腾讯集团汤道生带着团队到访了重庆一家短剧公司麦芽传媒;但是数日后,麦芽传媒的 CTO 李巍登上了字节跳动火山引擎 FORCE 原动力大会的舞台。
腾讯想要跟麦芽传媒在云服务、AI 技术应用、数字内容联合开发与智能分发上进行合作,而麦芽传媒 CTO 则公开表达,明年要跟火山引擎在 AI 漫剧和 AI 真人剧、短剧 AI 审核、AI 视频精修和播放器智能超分辨率上探索。
云厂商是短剧的「水电煤」,短剧是云厂商的「练兵场」,这是一种既是内容源,又是客户的共生关系。后知后觉的腾讯云能撬动火山引擎的客户吗?
很难替代,且不说红果短剧已经成为行业的绝对头部势力,腾讯元宝在视频模型能力上也落后同期的对手豆包和千问。
火山引擎总裁谭待在提到客户时特意说:「影视创作方面用大模型的进程比我们想象的快一些。之前想到应该很快,没想到能这么快,现在很多短剧、尤其是漫剧,还有各种 AD 素材,都在用。」
有提升的模型能力,搭配解锁的应用场景,最后才能给云厂商们带来源源不断的新客户。这是过去半年,豆包大模型日处理 Tokens 超过 50 万亿、增长 200% 的背后逻辑。
短剧正在成为云厂商们持续解锁的创新场景之一。不光是字节和腾讯,阿里千问 APP 也在最近上线了视频生成模型万相 2.6,「AI 小剧场」就是其中一个具体的玩法,具备音画同步、多镜头生成及声音驱动等多种功能。
阿里和字节是国内 AI 赛道最大的竞争对手,一个是 AI 云市场规模第一,一个是 AI 云市场加速度第一。
就在豆包大模型 1.8 发布之日,阿里千问 App 接入首个阿里生态场景高德,开始具备物理世界理解和行动能力,更强的 Agent(智能体)能力是它们共同的进化方向,它们瞄准了更细分的用户市场需求。
凭借各自的生态优势进行全产业链的 AI 布局,这是目前阿里和字节在 AI 竞争赛道中的状态,但随着竞争深入,这终究是一场零和博弈,还是版图互补?
1
多模态模型能力是赛点
豆包大模型日均 Tokens 使用量已突破 50 万亿,这是火山引擎「秀肌肉」,而真正的「亮剑」则是推出了豆包大模型 1.8 和视频生成模型 Seedance 1.5 Pro。
豆包大模型 1.8 的提升,主要在于给多模态 Agent 场景进行定向的优化,在上下文管理,多模态理解能力上增强,可落地到安防监控场景中,提升了模型在处理复杂任务时的规划与执行水平。
而用户可以在豆包和即梦 App 端体验到最新视频生成模型 Seedance 1.5 Pro 的能力,它已经实现音画同步,支持多人多语言对话,能对齐口型,覆盖四川话、粤语等中文方言、英文及小语种。
快手可灵率先在国内视频生成模型中取得成绩,2025 年预计将取得 10 亿元的收入。国内科技巨头纷纷在这一领域跟进,即梦商业化负责人杜子航在 AI 应用分论坛说:「即梦是全球仅次于 Sora 的创作平台,创作者超 10 万名」。
而更重要的是他透露了一组商业化数据,在即梦的真实应用场景中,占比 51% 的是专业平面设计,占比 30% 的是内容素材生产,而 C 端社交娱乐内容占比为 19%。也就是说,相比 C 端用户的占比,B 端专业用户的付费水平已经占比八成以上。
在底层模型 Seedance 1.5 Pro 加持下,即梦的产品能力进一步提升,包括节奏性情感表演、多样化主体和上下文感知等,在图片处理上也可以通过涂抹框选,进而有强保持能力和精准的响应范围,输出影视质感的图片。
多模态模型能力在过去一年竞争激烈,在调用量上增速很快,已经趋同于语音模型,这成为当下科技巨头们竞争的赛点。而根据杜子航介绍,面向 2026 年,即梦将在漫剧等多个领域发力,包括推出多人协作的团队版。
再反观阿里,最近也是在多模态模型领域不断布局,最新推出的视觉生成模型万相 2.6,集成音画同步、多镜头生成及声音驱动等能力,单次生成视频时长达到 15 秒,并引入了「分镜控制」与「角色扮演」功能,背后核心还是要追求专业影视制作和图像创作场景的市场空间。
从模型到应用,从硬件到产品,阿里最近在 AI 领域「拧油门」的状态就没有停过。
上线千问 APP 后,发布夸克 AI 眼镜,又成立千问 C 端事业群,而蚂蚁也在通过「灵光」应用和「蚂蚁阿福」等产品在健康等细分赛道进行拓展,密集曝光之后,「蚂蚁阿福」一度冲进苹果应用商店免费榜第三位。
如今在模型能力上都能实现「音画同步」,但阿里万相 2.6 和豆包 Seedance 1.5 Pro 差距有多大?这显然还需要时间和市场验证,火山引擎总裁谭待在提到这一功能时明确说,「Seedance 1.5 Pro 实现音画同步,在行业不算首创,但同行功能做了,不代表做好了。」
放在更大的背景中看,字节和阿里在多模态模型能力上的竞逐,一方面是对 B 端企业客户增长市场的必然追求,而另外一方面也是补齐跟国际同行的差距。
视频生成能够实现音画同步这一功能,是谷歌在今年 5 月份率先在 Veo3 上实现的,这给整个视频模型行业带来与之看齐的方向,让 AI 视频走出「默片时代」,指令遵循更好、保真度更高。
而在落地场景中,谷歌云业务也给全世界的同行们做出了示范。谷歌云凭借多模态的模型能力,先后拿下了英国广告公司 WPP 集团、维珍邮轮等多个企业级大客户,通过 Agent 融入客户公司业务,推动这些大企业 AI 营销平台加速人工智能转型,已经在国际市场中展开更大的圈地运动。
2
一场生态位与话语权的变革
对于 AI 云服务的客户们来说,能不能用 AI 模型能力和智能体应用重塑生产力,带来真切的降本增效,才是选择的最大标准,因为技术只是表面的护城河,而 ROI(投资回报率)才是真正的尺子。
而当 Agent 开始落地企业真实的场景中,安全性的保证是第一位的,而后才是效率的提升,谁能率先解决复杂任务的稳定性,谁才能通过客户的最终判断。
「第一款产品从 0 卖到 30 万台用了 250 天,而在火山引擎的支持下,第二代端到端语音模型的 AI 玩具卖到 30 万台,只用了 25 天,速度提升了 10 倍」,跃然创新(Haivivi)联合创始人高峰在火山引擎 FORCE 原动力大会上说。
跃然创新是一家 AI 玩具公司,今年 8 月发布了第二代产品 CocoMate 系列,这是搭载端到端语音模型的 AI 玩具。第二代产品的能力显著提升,主要是因为火山引擎豆包实时语音模型的支持,CocoMate 能识别语气、理解情绪,支持主动接话并随时被打断,响应速度压缩到 1 秒以内,而且可以在噪音环境中使用。
在模型能力的提升下,AI 玩具行业成为创造新需求的品类整体迎来了大发展。2026 年 1 月,跃然创新还将发布第三代 AI 玩具,这是一款奥特曼 AI 互动对话器,用户可以与奥特曼 AI 角色进行对话,还支持无限距离组队对讲等功能。
而在当下 AI 落地真实场景 Agent 为王的行业共识中,阿里和字节出现了哪些新需求新变化?
阿里 AI 的核心关键词,是体内循环的「一统」,让 C 端的需求汇集到一处。
不论是成立千问事业群,还是把千问打造成一款超级 App,本质都是要把阿里计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问,让其能通过 Agent 形式外链淘宝电商等细分场景中,让不同的需求对齐到一起。
比如高德此前有 AI 导航智能体,后来有直接对话的出行生活智能体「小高老师」,这都是存在于高德 App 内的核心交互模式,而接入了千问之后,在千问 App 内就可以实现基于高德的服务。
而字节的 AI 核心策略是体外循环的「下沉」,让 B 端客户的 AI 使用门槛更低。
在推出智能体统一交互入口 AgentSphere 时,火山引擎副总裁提到一个颠覆他认知的事情,那就是很多企业中的智能体不是太少,而是太多太散了,这也是造成 AI 低效的一个重要原因。所以无数个数字员工或是智能体,都将在 AgentSphere 得到统一的交互,需求不同的用户看到不同的定制看板,而不是千篇一律的对话框。
而为了降低用户使用门槛,豆包还拿出了豆包助手 API,让企业通过 API 开箱即用。也就是说,火山引擎为了下沉,卖的不光是模型,更是封装好的成熟产品体验。
参照谷歌 Gemini 3.0 带给对手 OpenAI 的压力,不光是因为谷歌证明了 AI 大模型的能力上升有极大的上限,另外一方面也证明了 AI 落地到公司具体业务中,能把搜索、广告和 Youtube 等多个业务生态串联起来,真正带来业务效率的提升,给市场看到了真正 AI 落地可能性。
从谷歌给中国同行带来的启示看,懂用户、更好用的 AI 产品很重要,但更重要的是 AI 能力如何准确服务当下的用户群体,这是一场技术变现效率的比拼,更是一场生态位与话语权的变革。
无论是豆包通过流量入口优势挖掘 B 端客户,还是阿里通过 B 端服务能力进入 C 端市场,本质上都是通过各自的优势地位进行 AI 全产业链的布局,各自的路径已经越来越清晰,现在阶段只是版图互补,而不远的未来可能就是一场零和博弈。
审校 | 陈秋霖
END


登录后才可以发布评论哦
打开小程序可以发布评论哦