蓝洞商业 18小时前
AI 智能体落地,北看字节,南看阿里
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

竞争深入之后,这终究是一场零和博弈,还是版图互补?

撰文 | 赵卫卫

半个月前,腾讯集团汤道生带着团队到访了重庆一家短剧公司麦芽传媒;但是数日后,麦芽传媒的   CTO   李巍登上了字节跳动火山引擎   FORCE   原动力大会的舞台。

腾讯想要跟麦芽传媒在云服务、AI   技术应用、数字内容联合开发与智能分发上进行合作,而麦芽传媒   CTO   则公开表达,明年要跟火山引擎在   AI   漫剧和   AI   真人剧、短剧   AI   审核、AI   视频精修和播放器智能超分辨率上探索。

云厂商是短剧的「水电煤」,短剧是云厂商的「练兵场」,这是一种既是内容源,又是客户的共生关系。后知后觉的腾讯云能撬动火山引擎的客户吗?

很难替代,且不说红果短剧已经成为行业的绝对头部势力,腾讯元宝在视频模型能力上也落后同期的对手豆包和千问。

火山引擎总裁谭待在提到客户时特意说:「影视创作方面用大模型的进程比我们想象的快一些。之前想到应该很快,没想到能这么快,现在很多短剧、尤其是漫剧,还有各种   AD   素材,都在用。」

有提升的模型能力,搭配解锁的应用场景,最后才能给云厂商们带来源源不断的新客户。这是过去半年,豆包大模型日处理   Tokens   超过   50   万亿、增长   200%   的背后逻辑。

短剧正在成为云厂商们持续解锁的创新场景之一。不光是字节和腾讯,阿里千问   APP   也在最近上线了视频生成模型万相   2.6,「AI   小剧场」就是其中一个具体的玩法,具备音画同步、多镜头生成及声音驱动等多种功能。

阿里和字节是国内   AI   赛道最大的竞争对手,一个是   AI   云市场规模第一,一个是   AI   云市场加速度第一。

就在豆包大模型   1.8   发布之日,阿里千问   App   接入首个阿里生态场景高德,开始具备物理世界理解和行动能力,更强的   Agent(智能体)能力是它们共同的进化方向,它们瞄准了更细分的用户市场需求。

凭借各自的生态优势进行全产业链的   AI   布局,这是目前阿里和字节在   AI   竞争赛道中的状态,但随着竞争深入,这终究是一场零和博弈,还是版图互补?

1

多模态模型能力是赛点

豆包大模型日均   Tokens   使用量已突破   50   万亿,这是火山引擎「秀肌肉」,而真正的「亮剑」则是推出了豆包大模型   1.8   和视频生成模型   Seedance 1.5 Pro。

豆包大模型   1.8   的提升,主要在于给多模态   Agent   场景进行定向的优化,在上下文管理,多模态理解能力上增强,可落地到安防监控场景中,提升了模型在处理复杂任务时的规划与执行水平。

而用户可以在豆包和即梦   App   端体验到最新视频生成模型   Seedance 1.5 Pro   的能力,它已经实现音画同步,支持多人多语言对话,能对齐口型,覆盖四川话、粤语等中文方言、英文及小语种。

快手可灵率先在国内视频生成模型中取得成绩,2025   年预计将取得   10   亿元的收入。国内科技巨头纷纷在这一领域跟进,即梦商业化负责人杜子航在   AI   应用分论坛说:「即梦是全球仅次于   Sora   的创作平台,创作者超   10   万名」。

而更重要的是他透露了一组商业化数据,在即梦的真实应用场景中,占比   51%   的是专业平面设计,占比   30%   的是内容素材生产,而   C   端社交娱乐内容占比为   19%。也就是说,相比   C   端用户的占比,B   端专业用户的付费水平已经占比八成以上。

在底层模型   Seedance 1.5 Pro   加持下,即梦的产品能力进一步提升,包括节奏性情感表演、多样化主体和上下文感知等,在图片处理上也可以通过涂抹框选,进而有强保持能力和精准的响应范围,输出影视质感的图片。

多模态模型能力在过去一年竞争激烈,在调用量上增速很快,已经趋同于语音模型,这成为当下科技巨头们竞争的赛点。而根据杜子航介绍,面向   2026   年,即梦将在漫剧等多个领域发力,包括推出多人协作的团队版。

再反观阿里,最近也是在多模态模型领域不断布局,最新推出的视觉生成模型万相   2.6,集成音画同步、多镜头生成及声音驱动等能力,单次生成视频时长达到   15   秒,并引入了「分镜控制」与「角色扮演」功能,背后核心还是要追求专业影视制作和图像创作场景的市场空间。

从模型到应用,从硬件到产品,阿里最近在   AI   领域「拧油门」的状态就没有停过。

上线千问   APP   后,发布夸克   AI   眼镜,又成立千问   C   端事业群,而蚂蚁也在通过「灵光」应用和「蚂蚁阿福」等产品在健康等细分赛道进行拓展,密集曝光之后,「蚂蚁阿福」一度冲进苹果应用商店免费榜第三位。

如今在模型能力上都能实现「音画同步」,但阿里万相   2.6   和豆包   Seedance 1.5 Pro   差距有多大?这显然还需要时间和市场验证,火山引擎总裁谭待在提到这一功能时明确说,「Seedance 1.5 Pro   实现音画同步,在行业不算首创,但同行功能做了,不代表做好了。」

放在更大的背景中看,字节和阿里在多模态模型能力上的竞逐,一方面是对   B   端企业客户增长市场的必然追求,而另外一方面也是补齐跟国际同行的差距。

视频生成能够实现音画同步这一功能,是谷歌在今年   5   月份率先在   Veo3   上实现的,这给整个视频模型行业带来与之看齐的方向,让   AI   视频走出「默片时代」,指令遵循更好、保真度更高。

而在落地场景中,谷歌云业务也给全世界的同行们做出了示范。谷歌云凭借多模态的模型能力,先后拿下了英国广告公司   WPP   集团、维珍邮轮等多个企业级大客户,通过   Agent   融入客户公司业务,推动这些大企业   AI   营销平台加速人工智能转型,已经在国际市场中展开更大的圈地运动。

2

一场生态位与话语权的变革

对于   AI   云服务的客户们来说,能不能用   AI   模型能力和智能体应用重塑生产力,带来真切的降本增效,才是选择的最大标准,因为技术只是表面的护城河,而   ROI(投资回报率)才是真正的尺子。

而当   Agent   开始落地企业真实的场景中,安全性的保证是第一位的,而后才是效率的提升,谁能率先解决复杂任务的稳定性,谁才能通过客户的最终判断。

「第一款产品从   0   卖到   30   万台用了   250   天,而在火山引擎的支持下,第二代端到端语音模型的 AI 玩具卖到   30   万台,只用了   25   天,速度提升了   10   倍」,跃然创新(Haivivi)联合创始人高峰在火山引擎 FORCE   原动力大会上说。

跃然创新是一家   AI   玩具公司,今年   8   月发布了第二代产品   CocoMate   系列,这是搭载端到端语音模型的   AI   玩具。第二代产品的能力显著提升,主要是因为火山引擎豆包实时语音模型的支持,CocoMate   能识别语气、理解情绪,支持主动接话并随时被打断,响应速度压缩到   1   秒以内,而且可以在噪音环境中使用。

在模型能力的提升下,AI   玩具行业成为创造新需求的品类整体迎来了大发展。2026   年 1   月,跃然创新还将发布第三代   AI   玩具,这是一款奥特曼   AI   互动对话器,用户可以与奥特曼   AI   角色进行对话,还支持无限距离组队对讲等功能。

而在当下   AI   落地真实场景   Agent   为王的行业共识中,阿里和字节出现了哪些新需求新变化?

阿里   AI   的核心关键词,是体内循环的「一统」,让   C   端的需求汇集到一处。

不论是成立千问事业群,还是把千问打造成一款超级   App,本质都是要把阿里计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问,让其能通过   Agent   形式外链淘宝电商等细分场景中,让不同的需求对齐到一起。

比如高德此前有   AI   导航智能体,后来有直接对话的出行生活智能体「小高老师」,这都是存在于高德   App   内的核心交互模式,而接入了千问之后,在千问   App   内就可以实现基于高德的服务。

而字节的   AI   核心策略是体外循环的「下沉」,让   B   端客户的   AI   使用门槛更低。

在推出智能体统一交互入口   AgentSphere   时,火山引擎副总裁提到一个颠覆他认知的事情,那就是很多企业中的智能体不是太少,而是太多太散了,这也是造成   AI   低效的一个重要原因。所以无数个数字员工或是智能体,都将在 AgentSphere   得到统一的交互,需求不同的用户看到不同的定制看板,而不是千篇一律的对话框。

而为了降低用户使用门槛,豆包还拿出了豆包助手   API,让企业通过   API   开箱即用。也就是说,火山引擎为了下沉,卖的不光是模型,更是封装好的成熟产品体验。

参照谷歌   Gemini 3.0   带给对手   OpenAI   的压力,不光是因为谷歌证明了   AI   大模型的能力上升有极大的上限,另外一方面也证明了   AI   落地到公司具体业务中,能把搜索、广告和   Youtube   等多个业务生态串联起来,真正带来业务效率的提升,给市场看到了真正   AI   落地可能性。

从谷歌给中国同行带来的启示看,懂用户、更好用的   AI   产品很重要,但更重要的是   AI   能力如何准确服务当下的用户群体,这是一场技术变现效率的比拼,更是一场生态位与话语权的变革。

无论是豆包通过流量入口优势挖掘   B   端客户,还是阿里通过   B   端服务能力进入   C   端市场,本质上都是通过各自的优势地位进行   AI   全产业链的布局,各自的路径已经越来越清晰,现在阶段只是版图互补,而不远的未来可能就是一场零和博弈。

审校 | 陈秋霖

END

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 腾讯 cto 字节跳动 分辨率
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论