面对产业转折点,商汤将发布具身智能 " 大脑 " 计划。
文|赵艳秋 周路平
编|牛慧
2025 世界人工智能大会(WAIC2025)将在本周末火爆开场。近日,商汤科技提前释放出重要消息:将在大会上揭晓一款全新的具身智能 " 大脑 "。
据商汤官方公众号预告,7 月 27 日的 WAIC2025 大模型论坛中,商汤将揭晓这款集成了感知能力、视觉导航、多模态交互的智能 " 大脑 " 系统,为机器人、智能设备等智能终端提供赋能。
实际上,商汤入局具身智能 " 大脑 " 赛场,业界并未感到意外。具身智能的研究与产业落地,主要由两路人马推进:一路是计算机视觉领域的研究和从业者,如李飞飞;另一路是机器人领域的从业者。而商汤起家于计算机视觉,如今加码具身智能,不仅在情理之中,甚至可以说,这是它必然要落子的一步。
布局具身智能 " 大脑 "
具身智能 " 大脑 " 已成为全球人工智能的核心竞争点。OpenAI 与机器人公司 Figure AI 联手打造通用机器人,谷歌推出具身智能 RT-2 模型,英伟达聚焦世界模型和仿真。国内如华为也在今年 6 月刚发布包含 " 大脑 " 的 CloudRobo 具身智能平台。商汤则是最早一批入局者,在不断演化其技术路径。
为何全球科技企业对这一赛道高度重视?实际上,本轮具身智能热潮,本质上就是大模型与机器人技术的深度融合带来的。在 " 前大模型时代 ",机器人是 " 只会一种技能的工人 " ——送餐的不会打螺丝,打螺丝的不会倒咖啡。本体泛化、任务泛化和场景泛化,成为具身智能三大瓶颈。
转折发生在 2022 年。随着 ChatGPT 等大模型的崛起,人工智能具备了自然语言理解、内容生成和深度推理能力,业界开始设想,能否让机器人拥有一个 " 更聪明的大脑 "?这样,它就能打破本体限制,完成更复杂、更灵活的任务。
这便是具身智能 " 大脑 " 的重要意义。不过,目前该领域仍处在探索阶段,技术路线还未 " 收敛 "。一些业内人士提出,当前主要有三种:
VLA 模型(Vision-Language-Action):输入语言 + 图像,输出动作。优势是结构简洁,但在物理属性识别、利用物理规律与足够的控制轨迹上存在不足。
" 大小脑 " 架构:将 " 规划 " 与 " 执行 " 分工,提高系统的模块化和解释性,但仍面临泛化挑战。
世界模型:对比前两者,雄心则更大,对环境状态、物理规律、时序逻辑等进行建模,强调多模态信息融合和推理能力,目标是让智能体理解世界、预测变化、规划行为。
从商汤目前披露的信息看,虽然未明确押注某一技术路线,但其分阶段演进的方式,指向了对 " 世界模型 " 能力的持续积累。
在过去几年,商汤在具身智能 " 大脑 " 上的探索和布局似乎可分为四个阶段:
第一步:从 " 看 " 到 " 动 ",构建视觉 - 感知 - 决策闭环。
2022 年 8 月,商汤推出家用机器人 " 元萝卜 ",首次将视觉算法与机械手深度结合,完成棋子识别与遮挡环境下的精准抓取。这标志着商汤初步建立了 " 视觉 - 感知 - 决策 " 的闭环,机器人开始具备与物理世界互动的基础框架。
传统人工智能是 " 开环 " 的,坐在云端 " 思考 "、" 看见 " 世界。但一旦涉及操作,就要形成一个复杂的闭环——感知必须转化为 " 理解 ",并进一步驱动动作执行。这是具身智能的出发点。
第二步:" 日日新 V5.5 - V6" 发布,多模态融合与推理能力迈向认知中枢。
2025 年 4 月,商汤推出 " 日日新 V6" 多模态大模型,核心突破在于模态融合,支持长思维链、多模态推理与规划能力,尝试解决长期困扰具身智能的难题——稍微复杂、步骤多、时间跨度长,传统系统就 " 断链 "。就像是机器人的 " 大脑皮层 ",从 " 接收信号 " 跃升到 " 理解意图 "。
极为重要的是,它已被傅利叶、归墟等机器人公司接入合作,意味着商汤具备了平台级技术输出能力,从研发走向产业赋能,进入战略跃迁阶段。
这一系列能力的进化并非一蹴而就。早在 2024 年 7 月商汤发布的 " 日日新 V5.5",是这一融合路线的重要中继站:基于 6000 亿参数模型性能升级,广泛引入合成高阶思维链数据,在数理逻辑、指令跟随等方面表现突出,并首次推出原生流式多模态交互体验模型 " 日日新 5o",推动 AI 从 " 响应输入 " 走向 " 理解场景 "。
此外," 日日新 5.5 Lite" 等端侧模型也大幅提升效率与普及能力,拉近大模型与用户之间的距离。
2024 年底,商汤更是率先推出 " 日日新融合大模型 ",领先实现原生融合模态训练,成功打破语言模型与多模态模型各自为政的局限。该模型在 SuperCLUE 和 OpenCompass 两大权威榜单中同时夺冠,成为 " 双冠王 ",意味着商汤首次在深度推理与多模态融合领域实现 " 模型一统 " 的实质性突破,这一系列创新,为 V6 的能力跃升创造了条件。
第三步:" 大脑 " 平台化,走向世界模型。
接下来,商汤即将发布具身智能 " 大脑平台 ",标志着其从单点能力向系统能力的整合与跃升。
而且,商汤在智驾领域布局积累很早。世界模型是其重点突破方向。商汤智驾品牌 " 绝影 " 构建的 " 开悟 ",已经能理解物理规律、学习交通规则,在实际场景中落地。
而车和机器人,本质上都是具身智能体。具备感知、导航、交互等能力,是它们的共同诉求。商汤或将自动驾驶中构建的 " 世界模型 " 经验迁移到机器人领域,推动具身智能大脑的的进一步演进。
这次产品发布,标志着商汤具身智能战略,进入 " 平台化 " 的新阶段,并走向产业输出。背后是商汤长期的技术预埋与战略耐心。
商汤的准备
除了具身智能的大脑,商汤通过 WAIC 2025 释放了另外一个明确信号:具身智能是 " 算力密度 × 数据密度 × 生态密度 " 的竞争。
这几年,算力需求井喷,算力的密度很大程度上决定了模型演进和应用落地的速度,尤其是具身智能需要实现对物理世界的感知和理解,涉及多种模态,对算力的消耗有增无减。
有数据统计,具身智能场景的算力消耗占比已从 2023 年的 12% 跃升至 28%。而英伟达的芯片在今年一季度的销售额,有 30% 流向具身智能设备。
过去多年,商汤在算力上的投资巨大。早在 2018 年,商汤就打造了国内首个 AI 千卡集群原型机。两年后,又建立了国内首个智算中心。到 2024 年底,商汤大装置的算力规模达到 23000PetaFlops,超过了一些主要大城市的公共智能算力。今年 4 月,商汤又发布了商汤大装置 SenseCore 2.0,朝着 " 最懂大模型的 AI 基础设施 " 发力。
商汤做大装置,其初心是提高 AI 模型的生产效率和降低使用成本。但大装置 + 大模型的结合,让商汤在算力层面的能力得到了大幅提升。比如商汤对模型推理过程,做预填充和解码的分离,提升 GPU 硬件利用率并降低推理延迟。
商汤大装置已帮商汤拿下了不少智算和大模型订单。比如南方电网基于商汤大装置,实现从模型、平台算法到底层算力的 100% 国产化,构建了全栈国产电力 AI 基础设施。而一家基建行业头部设计院依托商汤大装置的国产芯片及底座平台,开发了工程勘察设计领域大语言模型、多模态大模型,解决了知识传承困难、融合性差和应用程度低等难题。
IDC 的报告显示,商汤大装置在 2024 年下半年稳居国内 AI 大模型解决方案市场第二位。
如今,商汤已经成长为 " 大装置 - 大模型 - 应用 " 三位一体的 AI 厂商。
除了算力,高质量数据是具身智能发展的一大卡点。尽管大脑架构和技术路线正在快速演化,但所有路线最终都绕不开一个共识:数据,是具身智能最难啃的那块骨头。
而且有业内人士提出,具身智能和大模型一样,同样存在 Scaling Law。在他们的试验中,每多采 10 倍数据,机器人错误率就会降低大约 10 倍。如果想从 99% 的成功率提高到 99.9%,意味着要多采 10 倍数据,但成本也呈指数级上升。
目前,具身智能的高质量数据来自于线下采集的真实数据、仿真合成数据以及互联网数据。但两者各有优劣。比如特斯拉和 Google 都选择用摇操获取数据,但背后的成本投入巨大。据悉,Google 做十几万条数据,用时十多个月,花了上千万美元。
在业内看来,更加现实的做法是,利用互联网视频数据、合成数据,直接做到几个 9,再用真实数据进行强化学习。
人类 80% 以上的信息获取来自视觉,商汤是以机器视觉起家,在视觉信息的处理上,有着一系列经验技术。
同时,商汤也在推动融合模态的数据合成与融合任务的增强训练。比如在预训练阶段,商汤不仅采用了天然存在的海量图文交错数据,还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据。在后训练阶段,商汤构建了大量的跨模态任务,包括视频交互、多模态文档分析、城市场景理解、车载场景理解等。
另外,除了算力、数据、模型等底层能力的积累,商汤在生态方面也在持续投入,通过旗下私募基金国香资本投资了一批具身智能企业,包括银河通用机器人、众擎机器人、钛虎机器人、鹿明机器人等十几家企业。这些企业覆盖了具身智能全产业链,比如众擎机器人主攻本体和运控,钛虎机器人主攻关节模组。
这种生态密度,让商汤比其他大模型厂商更贴近产业需求,了解产业动向。同时这些被投企业又给商汤提供了丰富的落地场景和真实数据,加速产业落地。
不难发现,从算力基础设施,再到数据和生态,商汤在具身智能所需的各环节,也都在悄然押注和投入。
商汤即将推出具身智能 " 大脑 ",恰逢 2025 年该产业由概念验证走向初步产品化、平台化的关键拐点。大模型与机器人融合,正加速从实验室走向现实世界。头部科技公司和研究机构的布局提速,已经掀起了具身智能的竞争热潮。
与此同时,政策与资本的双重推力也不容小觑:2025 年政府工作报告中,具身智能作为新兴产业首次被写入其中。具身智能正在制造、无人零售、接待、健康医疗等产业渗透。仅在今年上半年,具身智能相关领域融资金额已经超过了 200 亿元,融资事件达 130 件,远超 2024 年全年。具身智能的 " 黄金时代 " 已悄然拉开序幕。
从商汤在具身智能 " 大脑 " 的技术布局以及其在算力、数据、生态等关键环节形成闭环能力来看,其在具身智能领域绝非偶然的战略试探,而是其基于技术基因的必然延伸,更有望成为撬动其第二增长曲线的最佳支点。
从一系列信息的分析看,商汤在具身智能领域的动作,既是对自身能力边界的重构,更是对下一代智能形态的提前卡位。当机器人与智能设备真正成为 " 有大脑的具身智能体 " 之后,具身智能,或将成为商汤握住连接未来的关键钥匙。
© 本文为数智前线(szqx1991)原创内容
进群、转载或商务合作联系后台
文章精选
登录后才可以发布评论哦
打开小程序可以发布评论哦