硅星人 15小时前
从对话框到数字人:魔珐星云如何让每个AI都拥有"身体"?
index.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

从文字、图片到视频,AI 的创造力在二维世界一路狂飙。我们惊叹于 ChatGPT 的对答如流,也为 Sora 的超现实视频而震撼。但这一切精彩,都被禁锢在冰冷的屏幕上,终究是一串流动的像素,无法用真实的肢体与我们交流。

真正的下一站,是让AI走出平面,拥有一个可以在三维空间中表达和交互的身体。

在这样背景下,硅星人发现了一个 3D 领域中最难实现的,3D 数字人的生成平台:魔珐科技旗下的星云平台,覆盖了从文本直接生成包含语音、动作、表情在内的完整 3D 表达的 AI 平台。

魔珐 CEO 柴金祥对硅星人讲到了他的判断:" 未来每个 APP 都会是一个‘人’。你不再需要点击填表,只需对着屏幕上的‘她’说话,她会理解你的需求,用语言和肢体为你完成一切。"

从 2D 到 3D,这不仅是维度的跨越,更是一场深刻的交互革命。当 AI 终于获得身体,我们的数字生活将如何改变?带着这个疑问,硅星人测试了星云平台,试图理解:当 AI 获得 " 身体 " 后,技术实现是什么,应用场景会发生什么变化。

实测星云:秒回复、零卡顿、自然表达

星云平台最颠覆的一点,是它把创造 3D 数字人的权力,交到了每个普通开发者手里。你不再需要专业的建模或动画团队,只需在网页上动动手指,调整几个参数,一个专属的数字人便诞生了。实时互动、语音播报、多语种切换,甚至直接生成视频,所有你需要的功能,它都为你打包好了。

一开口,我就感觉到了不同。当我们报出 5000 元的预算和办公需求,他几乎是立刻就给出了三个最新的型号方案。从联想、戴尔到华为,每一款的 CPU、内存和续航,他都讲得明明白白,就像一位真正懂行的朋友在帮你精心挑选。

当他正在介绍硬盘参数时,我们毫无征兆地打断他,提出想看更便宜的机型。他只是停顿了大约一秒,就立刻领会了我们的新意图,无缝切换到新的推荐了最新的款式。

为了探索更多的场景,我们又测试了两个截然不同的角色:一个是一丝不苟的招聘面试官,另一个则是情感细腻的AI虚拟男友。

我们让他用英文面试一个新的岗位。他的表现像个真正的 HR:提问有逻辑,从项目经验—技术栈—解决方案,英文输出很自然,还会根据回答追问细节。而 AI 虚拟男友的核心不是传递信息,而是提供陪伴感。最明显的是肢体语言和情绪的匹配,会摆动双臂配合撒娇语气,安慰的时候会做出轻拍肩膀的手势,语气温柔时表情也会变柔和。

测试下来最大的感受是,你不再觉得是在跟一个机器人对话,而是在与一个 " 活生生 " 的虚拟角色交流。

无论是专业术语、情绪表达还是突然改变的需求,他总能精准捕捉到话语背后的意图,不会答非所问。但更重要的是,他拥有自己的 " 身体语言 "。他不再只是一个会动的嘴巴,推荐产品时的自信手势、撒娇时的俏皮摆臂、面试时的专注神情,都伴随着对话实时生成。

破解数字人的 " 不可能三角 "

在流畅的用户体验背后,是星云平台的技术创新。

数字人行业存在一个长期未解决的 " 不可能三角 ":要质量加低延时,成本会激增,无法规模化;要高并发加低成本,必须牺牲质量;要质量加高并发,延时就会上升,无法实时交互。星云平台通过模型层面的技术突破和系统层面的架构创新,来解决这个 " 不可能三角 "。

星云的核心技术是由 LAM(Language Action Model)驱动数字人,这是一个文本生成多模态 3D 的大模型。LAM 的输出不是文本或图像,而是 " 身体语言 "。这个差异决定了数字人的能力边界。传统数字人处理的是 " 说什么 " 的问题,而 LAM 要解决的是 " 怎么说 ",同样一句话在不同场景下,语调、节奏、表情、手势会完全不同,这些细节才是让数字人显得自然的关键。

具体来说,当输入文本或语音后,模型需要理解的不仅是字面意思,还包括情绪基调、场景语境、表达意图。比如同样是 " 好的 " 这两个字,在客服场景是确认语气,在虚拟陪伴场景可能是撒娇语气,在招聘场景则是正式礼貌的回应。

理解语义之后,模型会同时生成四种模态的 3D 表达信号:

语音层面包括语调、节奏、情绪的变化:推荐产品时语速快、语气热情,安慰时语速慢、语气温柔;

动作层面包括姿态、手势、身体语言:介绍产品参数时的指向手势、强调重点时的手部动作、撒娇时的身体摇摆;

表情层面包括情绪、眼神、眉目动态:微笑的程度、眼神的方向、眉毛的起伏都会根据对话内容调整;

手势层面是与语义同步的肢体动作:说 " 这个 " 时手指会指向某个方向,说 " 大概这么长 " 时手势会比划距离。

这四种模态是同步生成的,不是分开处理再拼接。模型输出的是对 " 这句话应该怎么说 " 的完整理解。

但光有 LAM 模型还不够。如何让它快速运行、低成本部署、支持大规模并发?这需要从系统架构层面重新设计。传统数字人方案的流程是:云端渲染完整视频,传输到用户设备,然后播放。这个流程存在几个问题:渲染 3D 画面需要高性能 GPU,云端成本极高;传输视频流需要大带宽,每路用户每秒占用数十 MB;视频生成和传输都有延时,难以做到实时交互;用户量上升后,云端压力呈指数增长,难以规模化。

星云改变了这个流程。云端只负责生成参数,不渲染画面。LAM 模型接收文本后,生成语音参数(音频波形特征)和动作参数(3D骨骼、表情、手势等控制信号),这些参数的数据量很小,只有几 KB 到几十 KB。然后将这些参数传输到用户设备,这里传输的不是视频流,而是 " 如何渲染 " 的指令。

用户设备接收参数后,通过端侧 AI 渲染模块将参数实时转化为画面。这个模块可以运行在 RK3566/RK3588 等百元级国产芯片上,不需要高端显卡。整个链路的延迟在 1 秒左右,云端生成参数、端侧渲染画面、用户看到数字人说话,这个过程是实时的。

这种架构带来的变化是:延时从秒级降到毫秒级、带宽从每秒数十 MB 降到 KB 级、云端可以支持千路以上同时在线,同时云端不需要配备大量 GPU,端侧可以用百元级芯片,整体成本据称下降到传统方案的几十分之一;端侧 AI 渲染模块可以运行在手机、平板、智能屏、车机等各种设备上。

技术方案背后,还有一个关键问题:LAM 模型从哪里学会 " 说这句话应该配什么动作 "?魔珐创始人柴金祥告诉我们:"3D 数字人领域最大的壁垒不是算法,是数据。文本、图片在互联网随处可见,但高质量的 3D 动作、表情数据几乎不存在。"

魔珐从 2018 年起就开始积累这些数据。早期为游戏公司、影视动画公司制作 3D 内容时,这些商业项目产生的动画数据经过脱敏处理后成为训练数据的一部分;后期则完全自研和制作动画数据,专门组建动画团队,针对 LAM 模型的训练需求制作各种场景、各种情绪、各种表达方式的 3D 动画。目前累计了数千小时的高质量 3D 动画数据,涵盖人脸表情、手部动作、身体姿态、多人互动等完整数据集。

这些数据的积累周期和成本投入,构成了星云平台难以复制的护城河。

从数字人到 Embodied Agent

如果只把星云理解为 " 做 3D 数字人的平台 ",会错过它真正的技术定位。

星云将自己定义为语言驱动身体的具身智能平台:不是内容生产工具,而是面向开发者的基础设施。它输出的不是渲染好的视频或动画,而是 " 动作参数 ",这些参数可以驱动虚拟世界的 3D 数字人,也可以驱动物理世界的人形机器人。

我们首先要区分清楚两个概念:Embodied AI(具身智能)指的是让 AI 具备 " 身体感知与行动能力 " 的智能形式:AI 不只思考,还能通过身体与环境交互。Embodied Agent(具身智能体)是这种智能的具体载体:拥有 " 身体 " 的智能体,可以在虚拟或现实空间中感知、表达、行动和交互。区别在于 : 具身智能是能力,具身智能体是拥有这种能力的载体。

星云定义自己为 " 具身智能 3D 数字人平台 ",聚焦的是 Embodied Agent 层,提供 " 身体 ",作为承载智能的容器。大模型已经提供了 " 大脑 ",现在缺的是让这个 " 大脑 " 可见、可交互的 " 身体 "。一个 AI 客服可以用文字回答问题,也可以用语音回答问题,但这些形式都是 " 无形 " 的。星云的功能是给这个 AI 添加一个 " 身体 ":3D 数字人形象,让它能通过表情、手势、肢体语言表达情绪和意图。这个 " 身体 " 不只是视觉呈现,而是完整的表达系统。

开发者通过 SDK 或 API 接入星云,就能让自己的 AI 应用具备数字人形态。这个逻辑类似于 AWS 不做具体应用,但提供计算、存储、网络的基础能力,开发者基于这些能力构建应用。

更进一步的技术规划在于 : 从虚拟到物理的统一输出格式。星云的底层是 LAM 模型,输入文本或语音,输出语义一致的三维动作、表情和手势。这意味着星云的功能不限于让 AI 在屏幕上可见,它可能成为连接虚拟智能与物理智能的接口。

据硅星人了解,魔珐目前正在与多家人形机器人公司合作,验证这条技术路径。他们提供的不是完整的机器人方案,而是 " 语言→动作 " 的转化层:机器人厂商负责硬件和控制系统,星云负责让机器人理解对话内容并生成对应的肢体表达。

结尾:

从 Embodied AI 到 Embodied Agent,星云平台开放的不只是 API 接口,而是通往 " 每个 APP 都是一个人 " 时代的入口。

这个判断听起来激进,但逻辑清晰。过去十年,AI 的进化路径是从 " 专用工具 " 到 " 通用助手 ":从只能识别图片的算法,到能对话、能写作、能推理的大模型。但这些 AI 仍然是 " 看不见 " 的,用户通过文字框或语音交互,感受到的是智能,看不到 " 人 "。

星云要做的是给这些 AI 加上 " 身体 ",不只是视觉形象,而是完整的表达系统。当 AI 真正拥有 " 身体 ",从 " 看不见的算法 " 变成 " 站在你面前的伙伴 ",人机交互方式将被重新定义。

这种重新定义不只发生在虚拟世界。从屏幕里的 3D 数字人到物理世界的人形机器人,星云正在打通的是同一条技术链路:语言驱动身体。LAM 模型输出的动作参数,既可以渲染成虚拟形象,也可以控制物理机器人。这意味着未来的 AI 应用,可能同时存在于两个世界:线上是数字人客服,线下是机器人接待员;线上是虚拟健身教练,线下是陪伴型机器人,它们使用同一套 " 大脑 ",只是 " 身体 " 形态不同。

具身智能时代的全貌我们尚难预见,但可以确定的是,我们正在经历的不只是技术升级,而是交互范式的转变:从人适应机器,到机器理解人。星云提供的是这个转变的基础设施,一切才刚刚开始。

评论
大家都在看