数智前线 09-01
4000个模型和500家独角兽,AI竞争新面孔背后
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

谁掌握 Agent 和高效基础设施,谁将重写行业格局。

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

文|赵艳秋

‍‍‍‍‍‍

编|牛慧

在北京人形机器人创新中心的实验场里,CTO 唐剑和团队正在加速冲刺。今年春天,他们的机器人 " 天工 " 还需要工程师遥控才能跑完半程马拉松,而几个月后,在世界人形机器人运动会田径场上,它已能完成全自主奔跑。

唐剑总结,具身智能的突破要跨越两类瓶颈:一类是 " 非线性 " 的,比如场景泛化和大模型的飞跃,一旦突破,就会迎来 " 具身智能 ChatGPT" 时刻。虽然这在时间上不可预测,但他坚信,一两年内行业会出现重大突破。另一类是 " 线性 " 瓶颈,比如稳定性、负载能力、续航和安全性,只要假以时日就能提升。

为此,行业正在展开激烈竞逐。而竞速并不局限于机器人。自 ChatGPT 诞生的 33 个月以来,全球已出现 4000 多个大模型,催生近 500 家 AI 独角兽。没有一个模型能在榜单上停留超过五周。

这些也推动 AI 基础设施进行范式性变革,业界比以往任何时候,都需要更快的模型迭代和更强的计算平台。行业焦点从单一追求规模,转向追求效能。

百度集团副总裁侯震宇直言:" 我们正站在价值爆发的前夜,谁能把握住 AI 应用最佳实践和基础设施效能的提升,谁就能在未来 AI 格局中脱颖而出。"

01  

" 我们的护城河,还在吗?"

尽管年初 Deepseek 引发一波应用探索热潮后,整个行业依然在摸索落地路径,但从上周举办的百度云智大会上看,大模型应用蓬勃演进的速度,超出想象。

去年,大模型应用主力军是互联网、智驾、央国企和科研教育行业。" 今年,除了 KA 客户,出现了很多新型创企,像具身智能,还有从大语言模型转向多模态类的,场景更丰富。" 百度智能云 AI 计算首席科学家王雁鹏告诉数智前线,他将这些归结于开源模型浪潮和产业蓬勃,点燃了更多需求和应用。 

具身智能在经历快速演进。北京人形机器人创新中心的 " 天工 ",在今年春天的半程马拉松上夺冠后,目前已开始出货,今年可能销售几百台。中心与李宁等头部企业探索在运动学测试、导购、电力巡检等落地。" 大家很快应该看到一些落地案例。" 唐剑透露。中心也发布了具身世界模型、跨本体 VLA 模型等大模型的阶段性进展。

多模态创新是今年另一类引人注目的方向。创业公司 VAST 是一家成立仅两年的 AI 3D 大模型企业。AI 3D 技术两年多前才被发明出来,VAST 迅速将其商业化落地,已服务了全球超 300 万专业建模师、4 万多家企业和 700 多家大客户。

" 我们正在改变很多工业管线。"VAST 创始人兼 CEO 宋亚宸说。过去建一个游戏模型要靠艺术家手工慢慢雕琢,现在用 AI 3D 只需几十秒钟、0.0001 元。

大量 AI 陪伴类产品已悄然上市,售价从数百到数千元不等。AI 陪伴机器人 LOOI 相关人士对数智前线说,上市几个月,他们已在全球出货 3 万台,其中海外 60%,国内 40%。

除了新市场,传统行业也在快速被改变。在金融领域,工商银行已上线了 1000 多个智能体,尤其今年智能体数量增长迅速,让交易形式、内部协作、风险经营等都发生了变化。

一家大型保险集团引入 " 数字员工 " 进行短期险邀约,意向率提升近一倍。百度副总裁阮瑜分析,结合多智能体以及真人级数字人交互体验,基于慧播星数字人技术的百度数字员工效率与专业度显著提升,交互还更具亲和力,能建立更强的用户信任。

数字员工一经推出,已迅速在 100 多个行业场景落地。像吴彦祖教英语、罗永浩直播带货,都掀起了不小的市场热度。

开发者对大模型的体会更深,现在,几乎所有程序员都在用 AI 写代码。根据百度工程效能部总监臧志的数据,AI Coding 工具的代码生成占比已从 20% 提升至 30%~40%,未来可能达到 80%~90%。

值得注意的是,随着大模型智力上限不断拉高,各行业格局正被悄然重塑。7 月,百度智能云金融业务部总经理徐旭拜访一家头部保险公司副总裁,分享智能体应用场景时,对方抛出一个问题:" 我知道这能做,但在这个时代,我们的护城河在哪?"

这折射出头部企业的焦虑,技术创新正冲击传统壁垒,竞争格局正在改写。徐旭认为,关键在于让大模型直抵核心业务场景,用 AI 原生技术和新的管理范式重构竞争力。

正如百度集团执行副总裁、百度智能云事业群总裁沈抖所说,AI 创造的价值,会远超互联网。互联网时代,网站和 App 封装的是信息,交付的也是信息;而智能时代的核心是 Agent,封装的是智能,交付的是结果。一定会有大量的 Agents 去接管从生产到经营的各种环节,直接创造价值。而业界看到,AI 全栈技术也正围绕 Agent 加速重构。

  十万卡不是终点

格灵深瞳技术副总裁、算法研究院院长冯子勇,带领团队研发了视觉基础模型 Glint-MVT,并将 Glint-MVT 作为视觉编码器训练出多模态模型 Glint-VLM,用于各种多模态理解任务和推动世界模型发展。他们计划在 9 月底左右将新一代 Glint-VLM 全量开源,这是一个达到商业级应用水平的模型,不仅放出模型,还公开训练数据和代码,让学术界和产业界真正理解模型的生成方式和安全性。

探索并不轻松。冯子勇坦言,过去在模型训练与实验迭代中,整个验证周期较长,亟需更强大的基础设施支撑。与百度智能云百舸平台合作后,百舸帮助其优化 VLM 训练框架,训练效率提升三倍,两天内就能完成一次训练,加快了实验迭代速度。而对于工业场景 99% 甚至 99.9% 准确率的需求,他们还需要依赖专业场景数据,从真实反馈中迭代。

随着模型规模、多模态、精度以及 Agent 的演进,对基础设施的需求已大为不同。全球算力竞赛仍在持续,科技巨头在大模型上不断 " 摸高 ",Scaling Laws 推动参数与算力快速增长。同时,Agent 进入深水区后,上下文更长、多模态融合、强化学习和 " 训推一体 " 范式,对 AI 基础设施带来了新得范式性变革。

业内也将目光投向高效 Scaling 方向,从稠密模型转向 MoE 稀疏模型架构,MoE 在保持计算量不变的情况下,可大幅扩大参数,万亿参数 MoE 模型已成普遍趋势。

今年以来,云大厂围绕 MoE 做了大量工作。比如百度智能云百舸 5.0,围绕 MoE 架构做了全栈优化。

MoE 对算力的要求是之前稠密模型的 5 到 10 倍。王雁鹏说,仅仅一个 PD 分离还不够,百舸 5.0 引入更系统的解耦,将视觉与语言、Attention 与 MLP 等模块也解耦,大幅提升算力利用率。这种更细力度的分离正成为演进趋势。

强化学习同样正在兴起,成为最重要的计算范式变革。它采用 " 训推一体 " 方式,模型在推理时不断接受反馈并实时更新,形成数据飞轮,让 AI 持续逼近真实需求。但训练和推理在计算特性上完全不同,统一架构极具挑战。年初 DeepSeek R1 推出时,市面上的强化学习框架尚难支撑。为此,百舸通过多轮实验与工程创新,打造出新框架。

为进一步提升集群的效能,超节点成为行业竞相投入的产品,用以降低通信时间、提升吞吐。百度 4 月发布的昆仑芯超节点,在性能与经济性之间取得平衡。

过去外界担心国产芯能否支撑超大规模模型,侯震宇介绍,昆仑芯 P800 已在 3.2 万卡集群点亮应用,训练效率超过 98%,并在多行业落地验证。它让百万 tokens 推理成本降至几块钱,同时适配主流模型和框架,成为真正覆盖训练与推理的国产芯片。

具身智能的崛起,也是基础设施必须全力支撑的方向,百舸已全面适配主流开源具身 VLA 模型,并在 WM 世界模型和 VLM 模型上实现训推提效,北京人形机器人创新中心基于此,将强化学习训练速度提升了一倍多。百度智能云已支持北京、上海、浙江、广东创新中心等的具身智能 " 国家队 ",并为产业链上超 20 家重点企业提供支撑。

面向各级政府、超级大型企业,百度智能云提供自主可控、绿色低碳、产业赋能的全栈 AI 智算方案,目前完成了 1.2 万 P 算力建设并管理运营 1500P 算力,在 IDC 智算服务市场中排名国内第二。

03  

Agent infra,越用越有价值?

除了算力基础设施,Agent 要落地,必须有进一步支撑。Agent 正在成为大模型落地的主角。从最初的简单应用,已发展为多 Agent 协同处理复杂任务。

Agent 需要好模型。要不要行业模型、场景模型,很多行业存在 " 非共识 "。百度智能云 AI 与大模型平台总经理忻舟告诉数智前线,他们与企业在行业大模型上的探索,经历了三个阶段。

最初,企业提供几十 GB 数据做后训练,但很快发现效果有限,一个新的基础大模型就能覆盖原有成果,因为数据量不够大。此后,企业开始结合具体场景,如设备维护,做数据标注,再在开源模型上做 SFT 或强化学习,训练量小、效果更好。

而在当下,他们的实践是先选择效果较好的基模,参数规模大可先蒸馏压缩;若效果不足,则补充标注数据训练小模型,还可以将多个小模型融合实现更好的效果,并在生产中持续迭代优化。

值得关注的是,在这个过程中,基座模型可灵活替换,企业在过程中真正沉淀下来的,是标注数据、应用 know-how 和 Agent 开发经验。

像智联招聘在人岗匹配场景中,采用了第三种模式,其在人岗匹配场景中,基于百亿参数规模模型,只用少量数据,就媲美千亿模型 DeeSeek R1 的效果。CTO 王昊称,这是未来一段时间,垂直场景的 " 王道 " 方案。

忻舟告诉数智前线,从行业实践看,贸然建设行业大模型,投入大、效果不确定,性价比不高。但行业模型的价值已被验证,尤其是对于成本、精度和速度有考量的企业。此外,视觉、多模态基础模型,准确率通常只有 20%~30%,通过上述流程,在特定场景下准确率可超过 90%,性价比极高。在新升级的千帆 4.0 中,提供了预制好的行业场景专精模型,以及一个为专精模型深度定制的 pipeline。

在这个过程中,大模型的微调从 SFT(监督微调)走向 RFT(强化微调),也就是模型的自我进化。RFT 通过提供评估标准或奖励函数,让模型在业务场景中自我探索,只要结果符合目标即可。这种方式尤其适合目标明确、标准清晰的场景。

有了模型基础,下一步是如何让 Agent 协作完成任务。业界主要有三种编排方式,其一是自主规划,依赖大模型能力拆解任务,快速生成简单 Agent;其二是工作流,优势是稳定可靠、结果可预期,目前在千帆平台上占到 80% 以上;其三是最新流行的一种多智能体协作,千帆采用 " 规划者执行者 " 模式,更灵活高效,还最先在国内云厂商中支持 A2A 协议,实现跨平台、跨企业的 Agent 互通。

智能体编排好后,还需要 " 手脚 " 去执行,高质量能力组件变得非常重要,其中最关键的两类是 RAG 和 AI 搜索。

千帆 4.0 的 RAG 已升级为多模态版本。九号电动车用五年登顶全球智能电动车销量第一,借助多模态 RAG 打造了多语种智能客服,车主只需拍照,就能获得实时多语种的诊断和指导处理。

百度 AI 搜索则满足了大模型的实时性需求。它是市场上呼之欲出、需求量非常高的 API。大模型训练基于历史数据,如 GPT-5 的数据是截至 2024 年 9 月底的,难以覆盖最新信息,而 AI 搜索可实时补充这一缺陷。忻舟介绍,这一功能上线三天,调用量就从十几万飙升到千万级。最近,智联招聘已在校园场景中应用,帮助学生实时获取企业薪酬和面试经验。

Agent 是未来最重要的研发范式,但是在这个研发范式背后数据的作用是无比重要的,无数据无智能。" 我们发现工程师 50% – 80% 的时间花在数据治理上。" 百度智能云数据平台部总经理刘斌说,此次千帆 4.0 推出的数据智能平台 DataBuilder,就是为了解决这一门槛。

产品覆盖了从多模态数据采集、转换、处理、检索、服务等数据治理的全生命周期,解决了模型训练和 AI 应用数据处理过程中,从数据管理,数据开发到数据生成处理全链条诉求。

通过多模态管理和一站式 AI 计算引擎,帮助客户实现 600% 数据处理提效和 30% 的计算成本降低,通过 Data+AI 一体化和面向场景化和行业化模板,帮助业务整个开发提效 30%,同时通过多模态检索引擎帮助业务降低 80% 的检索成本。

随着 Agent 和大模型的深度融合,AI 开始接管生产、经营和服务环节,成为新的价值创造者。无论是 " 天工 " 的全自主奔跑,还是数字员工的落地,都在印证 AI 已从实验室走向社会。下一个智能时代的竞争,将不只是比拼模型和算力规模,而是比拼谁能更快、更稳、更高效地把智能封装进 Agent,嵌入到产业链与社会运行之中。而企业真正的护城河,正从传统资源禀赋,迁移到用 AI 原生应用构建和新的管理范式重构上。

© 本文为数智前线(szqx1991)原创内容

进群、转载或商务合作联系后台

文章精选

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 机器人 基础设施 独角兽 半程
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论