智东西 04-11
商汤甩出具身智能大招!最强多模态大模型登场,给机器人装上大脑和眼睛
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | ZeR0

编辑 | 漠影

国产大模型,给人形机器人装上大脑、眼睛、耳朵和嘴巴了!

这位傅利叶通用人形机器人 GRx,立即辨认出 " 水 " 和 " 可乐 ",还能根据说话人提出的 " 想减肥 + 爱运动 " 需求,给出适合的建议。

让它夸人,也是张口就来。

另一位具身智能机器人 " 飞燕 ",能娓娓道来地描述眼前的场景,包括室内环境如何、人们在做什么。

这意味着以后机器人迎宾或当解说员,不再是站桩上岗了,而是活人感满满,更自如地跟人侃天侃地聊周围,还能察觉眼前人的心情,通过改变语气和音调给足情绪价值。

这些多模态能力,来自商汤刚刚发布的新一代「日日新 SenseNova V6」大模型。

今天,「日日新 SenseNova V6」火力全开,实现「长思维链 x 数理能力 x 推理能力 x 全局记忆」能力升级,包括最长 64K 思维链、大幅领先 GPT-4o 的数据分析能力、多模态深度推理国内第一、10 分钟长视频理解及深度推理等强项,还展示了将先进视觉交互和理解引入机器人的应用效果。

商汤这次多模态能力的升级,让人形机器人在视觉和语言能力上,具备了更趋近人的水平。

当智东西问到是否会推动大模型加速应用到具身智能机器人,商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华干脆利落地回答:" 这个肯定会去做。"

林达华说,商汤将 " 如何将机器人交互能力与具身智能的结合 " 视作一个非常重要的未来发展方向。他认为最终的 AI 交互形态是像人一样交互,不会是对着一个电脑窗口,届时从机器人、汽车到手机、眼镜,多模态交互将无处不在。

除了当导游、讲解员,「日日新 SenseNova V6」也能玩创意,智东西实测了让它给空白梗图设计对话,脑洞开得既多又大。

它还能速览中长分钟视频,总结重点内容,精确到视频里的几分几秒,而且能按照用户要求,将信息按列表形式输出,或是剪辑指定场景的视频片段。

只需在商量网页版上传一个视频,你就可以做针对性的提问,比如 " 这俩人关系怎么样?"、" 这个人推荐的三个商品,哪个性价比高?"

你还可以让它深入分析故事情节,比如分析某一集《名侦探柯南》里凶手是怎么下毒的。

林达华透露说,今年商汤将把视频理解支持时长进一步提升到 1 小时。

商量 App 上的实时视音频交互能力也非常丝滑方便,打开手机摄像头,就可以哪里不懂问哪里。无论是镜头里一扫而过的街景,还是讲解数学题和翻译文字,或者看图讲故事,AI 都信手拈来。

全新商量网页版即日上线,商量 App 已开启内测,日日新 SenseNova V6 API 明日上线。

网页版指路:chat.sensetime.com

商汤还发布商汤大装置 SenseCore 2.0,同时推出四大行业解决方案,要做 " 最懂大模型的 AI 基础设施 "。

值得一提的是,国产芯片参与了「日日新 SenseNova V6」的训练。

商汤科技联合创始人、大装置事业群总裁杨帆告诉智东西,国产芯片这三年快速进步,商汤持续对进口及国产芯片做适配和优化,希望能提供市场最优的性价比。

一、6000 亿参数多模态基座模型开 " 团战 ":强推理 x 强交互 x 长记忆

2025 年大模型发展有三大重要技术趋势:效率至上、多模态、深度推理。

新发布的「日日新 SenseNova V6」原生多模态通用大模型,采用混合专家架构(MoE),拥有 6000 亿参数,做到三合一:多模态长思维链 + 多模态强化学习 + 多模态全局记忆。

其推理能力显著提升,一个模型同时在多模态推理和纯文本推理上做到性能对标国际领先模型。从商汤展示的分数来看,SenseNova V6 Reasoner 推理模型的推理能力超过了 OpenAI o1 和 Gemini 2.0 flash-thinking。

商汤也实诚地放出了 SenseNova V6 与 OpenAI、谷歌、DeepSeek 先进模型在纯文本、多模态、纯文本推理、多模态推理上的具体分数对比,总体旗鼓相当,高低略有参差 。

其中,纯文本推理和多模态推理方面,SenseNova V6 在多项数学基准测试中的超过了 DeepSeek-R1、OpenAI o1、GPT-4.5。

SenseNova V6 的 Tablebench 通过率超过 GPT-4o,展现出强推理能力。

主打实时视音频交互的 SenseNova V6 Omni,实现了视频 - 语音交融的端到端输入输出,在多模态音视频学术榜单上的综合能力全面领先,单项能力对标专用大模型水准,做到视觉理解准确度高,语音错误率低。

在场景能力私域评测中,SenseNova V6 Omni 在识别能力、问答对话、记忆能力等维度均显著领先于同类产品。

二、携手具身智能,让机器人真听、真看、真思考

模型不能纸上谈兵,解决现实问题才是硬本事。商汤认为,大模型在商业应用上有两个关键价值:融入真实的业务应用,优化与人交互体验。

而真实世界中的对话,不是像跟 DeepSeek 对话那样,把每个指令都描述得很完整清晰,可能随手指着一个东西提问:" 那个是啥?"" 这道题怎么做?"

对应到机器人也是如此。

多模态融合模型可以成为机器人的大脑和眼睛,增强感知能力,像人一样进行深入思考和自然表达,还有更强的记忆力,比如能够记住之前来参观过的人。

这使得机器人在落地到导览等应用场景时,可以随时随地做讲解,在网络通畅的状态下,实时理解和响应语音意图,与人流畅对话,实现更拟人化的社交与互动。

得益于「日日新 SenseNova V6 Omni」多模态能力的进化,机器人能够看懂人的手势,回答人们对周围环境及物品的提问,根据对话内容和场景灵活切换交流方式,带给用户更真实、亲切的互动体验。

具身智能将是商汤多模态推理模型的重要场景之一。此次技术交流日上,商汤特别设置具身智能主题论坛。

谈到近期引起舆论争议的 " 朱啸虎批量退出人形机器人 " 以及具身智能泡沫话题,作为人形机器人嘉宾代表,银河通用合伙人、大模型负责人张直政谈道,作为科研人员,他从谨慎乐观的角度来看待,泡沫对于驱动科技创新很正常。

商汤科技联合创始人、大装置事业群总裁杨帆认为,科技产业要经历质疑,克服质疑,才能迈向更认真严肃的产业阶段,让大家更认真的思考距离商业落地还有多远。他相信多模态交互能力会给机器人带来帮助。

三、AI 融入 " 百姓日用 ":总结中长视频重点,生成游戏解说脚本,实时视音频通话

在日常生活和办公场景中,应用了「日日新 SenseNova V6」系列模型后,也能带来更多便利和生产力的提升。

比如上传时长 10 分钟以内的网课、旅游、生活类视频,就可以让 AI 快速整理重点、回答与视频内容相关的问题。

商家可以收集顾客对新品的评论吐槽截图,让「日日新 SenseNova V6」做专业的经营分析。

它还能解决真实办公场景里繁琐但重要的需求,包括信息管理、报告生成、运维日志生成、数学建模等。

另外通过商量 app,不仅有常见的文字聊天、图片问答、深度思考等功能,还能进行音频通话和视频通话,并针对四大高频需求,提供「数学解题」、「点读翻译」、「文旅讲解」、「绘本讲解」四大功能。

你可以跟 AI 玩 " 你画我猜 "。在开场演示中,「日日新 SenseNova V6」立即识别出用户正在画的是哪吒大电影里的太乙真人。它还能惟妙惟肖地模仿太乙真人角色的口音。

拍照解题几乎已经是各类多模态 AI 聊天 app 的标配。但这些普遍要先拍照,上传照片,再等 AI 输出一个很长的答案。

而通过商量 app 实时视频通话,AI 可以像一个真人家教,精准识别手写体,深度推理分析和定位错误,并针对错误点一步一步引导式讲题。

外出旅游就更方便了,相当于在手机里拥有一个博学多识的免费导游,打开摄像头一扫,想问什么都能立即获得答案。你还可以把摄像头对准外文书籍或菜单,让 AI 实时翻译。

在家庭场景,很多家长没有时间读绘本,或者得绞尽脑汁地给孩子讲故事。这也可以由商量 app 代劳,它能实现连续记忆与时序逻辑理解,讲述更完整生动的故事,还能挖掘故事深意,升华主旨。

四、三大多模态技术创新,商汤大装置大降推理成本

上述进展离不开商汤在技术上的持续创新。会上,商汤着重强调了三类技术:

(1)多模态长思维链:通过智能体(Agents)协作进行长思维链合成和验证,可支持合成最长 64K 的多模态长思维链,使模型具备面对复杂问题的长时间思考能力。

(2)多模态强化学习:构建了面向多种图文任务的混合增强学习框架,可以同步进行基于人类偏好的 RLHF、基于确定性答案或沙盒运行的 RFT,并通过动态调节机制保证主客观表现的均衡。

(3)多模态全局记忆:可将视觉信息、听觉、语言、与时间轴逻辑进行对齐,形成多模态统一时序表征。在此基础上通过内容敏感的细粒度级联信息压缩,实现 400 倍的长视频压缩。

此外,SenseNova V6 Video 将视频理解时长突破到 10 分钟,离不开长视频统一表征和动态压缩的技术进步,可将 10 分钟长视频压缩到 16K tokens,同时仍然保留关键语义。通过 " 视觉 - 听觉 - 语义 " 三重关联推理,它能发现视频内容中的一些矛盾和漏洞。

大模型技术的高效落地与规模化应用,离不开高效稳定的算力底座。据商汤科技联合创始人、大装置事业群总裁杨帆透露,商汤大装置已经将商汤多模态推理应用的成本降到和大语言模型一样。

通过 PD 分离 / 通信计算折叠 /FP8 强化 / 算子优化等基础设施与模型协同优化,结合预测模型驱动的弹性伸缩技术,商汤大装置实现了推理性能的突破,在线服务性能较头部厂商提升 15%,超行业平均水平 25%;离线推理方面,Prefill 阶段提速 5 倍,Decode 阶段提速 3.5 倍。

此外,商汤大装置联合某头部客户进行了大规模异构混训,基于自动并行策略、跨芯通信、容错恢复等核心技术,在 5000 张国产 GPU 集群上实现 1 个月稳定异构混训,达成 80% 算力利用率,成功突破单一 GPU 限制,为国产芯片碎片化问题提供了关键解决方案。

商汤大装置还宣布今年发放 1 亿代金券,全栈赋能场景落地。

结语:商汤坚定 " 三位一体 " 战略,加速 " 一基两翼 " 布局

大模型算法与基础设施的联合优化,已经成为推动生成式 AI 飞速发展的核心动力。

当前,商汤正基于 " 大装置 - 大模型 - 应用 " 三位一体核心战略,全面构建未来竞争力,致力于通过基础设施、大模型和应用的协同迭代,成为 " 最懂算力的大模型服务商 " 和 " 最懂大模型的算力服务商 "。

基于三位一体战略,商汤打造以日日新(SenseNova)多模态大模型为基石,以生产力工具和交互工具为两大落地方向的 " 一基两翼 " 布局。其中生产力工具侧重在企业 copilot、金融、政务,交互化工具侧重在拟人交互、多模态交互、智能营销。

从技术突破、商业落地到生态协同,商汤正在摸索出作为独立 AI 企业的核心竞争力,深入真实场景需求,服务于大众和企业日常,将多模态大模型的优势真正落到实处,实现更智慧、更温暖、更有用的人机交互。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

机器人 商汤 智东西 火力全开 数据分析
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论