左手AI数字人，右手人形机器人：多模态技术正模糊虚实边界

文 /VR 陀螺

不久前，阿里巴巴通过 3D 高斯溅射技术在苹果 Vision Pro 上部署了实时高质量渲染的 3D AI 数字人 TaoAvatar，可根据多视图序列生成逼真、拓扑一致的 3D 全身虚拟形象，姿势、手势和表情均可完全控制。

该技术使数字人在 3D 空间中能聆听、能说话、有表情、有动作，同一数字人可瞬间切换职业 / 服饰，未来可应用于 AR 电商直播场景等。未来可应用于虚拟导购等领域。

4 月 7 日，阿里通义宣布开源发布 LHM 可驱动超写实 3D 数字人生成模型，可单图秒级生成超写实 3D 数字人。只需输入一张图片、即可与这张图片所生成的数字人化身进行低延迟的实时对话。未来，LHM 有动作重现、游戏角色生成和虚拟现实探索三大应用方向。

数字人的发展远比想象中更快，AI 化只是其变革的一个缩影。

虚拟主播、数字员工……当数字人都开始接入 AI

自 2022 年起便处于休整状态的虚拟 VTuber 绊爱（Kizuna AI）于不久前以全新形象正式 " 复活 "，在 YouTube 上恢复更新，并宣称未来将更专注于音乐活动。更新后不久，其 YouTube 订阅数重新突破 300 万。

左图为绊爱新形象

网友戏称："2016 年怀疑绊爱是不是 AI，2025 年还在怀疑绊爱是不是 AI，一切都回来了！"

以人工智能为人设的绊爱或许未曾料到，同样是在 2022 年，在自己宣布无限期休整后，真正意义上的 AI 聊天机器人 ChatGPT 会掀起一场袭卷全球的浪潮，将 AI 的发展推向新的高峰。

技术的持续升级不断扩展数字人的 " 工作能力 "，相较于由人类（中之人）驱动的数字人（虚拟主播、虚拟偶像等），如今由 AI 驱动的数字人（AI 助手、AI 数字员工）在接入多模态大模型后受到了更多的青睐。

在虚拟主播领域，AI VTuber 如雨后春笋般涌现，例如 Neuro-sama 是完全依靠 AI 运行的英语系 VTuber，不仅能回复聊天，还能通过 AI 玩《osu!》和《Minecraft》等游戏。Neuro-sama 的成功不仅展示了 AI VTuber 在娱乐领域的潜力，更揭示了 AI 数字人在多场景应用中的技术通用性。

它们与传统虚拟主播的区别在于，后者不需要人类过多介入，能基于大型语言模型（LLM）自主与观众互动，而且能够实时响应用户聊天、玩电子游戏和分享个人趣事。随着开发者向他们提供更新的数据或语言模型，它们能够不断进化。

AI 驱动的 VTuber

随着多模态大模型的不断成熟，不同职位的数字人的功能属性正在发生变化：AI 数字人正在重塑人机交互的边界：

春节期间，杭州电视台新闻联播的 AI 主持人 " 小雨 " 进行新闻播报，实现了 0 失误率，不少地方电视台和地方融媒体中心都聘用了 AI 数字人担任主播。

2025 年两会期间，长江日报正式上线接入 DeepSeek 的最新人工智能产品，数字人 " 小武 " 能根据政府工作报告内容进行知识问答。

浙江义乌老板通过 AI 数字人短视频制作工具，录制好带口型的视频，配合对应的产品文案就能一键生成对应的外语视频。

腾讯云智能数智人接入 DeepSeek 大模型，用户通过数智人平台内置的 V3、R1 等模型，无需开发就可以让 DeepSeek 拥有真人外观，数智人可应用于交互场景和播报场景。

百度慧播星发布了 " 真人一键克隆 " 数字人直播功能，可以实现无需专业设备、无需真人值守、无需运营团队、上传视频即可同步复刻声音、形象、装修，一键打造数字人电商直播间。

不知不觉间，DeepSeek 等 AI 大模型都在为数字人注入新的血液，数字人正完成从 " 皮囊 " 到 " 灵魂 " 的进化，AI 将逐步覆盖数字人生产到应用的全流程。

能力进化，这是 AI 数字人该有的样子

数字人的发展可按技术成熟度分为五个阶段：萌芽阶段、初级阶段、成长阶段和成熟阶段，不同时期均有其显著特点。

萌芽阶段的数字人起源于 20 世纪 80 年代的日本宅文化，以角色概念设定出现。直至 21 世纪初期的初级阶段，随着雅马哈的语音合成软件 VOCALOID 的推出，数字人正式走上文娱舞台，代表角色为初音未来。2016 年至 2020 年期间，动捕技术和录制设备的发展到达新阶段，出现了以绊爱等需要中之人驱动的虚拟主播。

进入成长阶段的数字人主要以二次元风格形象为主，2021 年后元宇宙兴起，AI 开始融入数字人的制作环节，建模、驱动和渲染技术的升级，使得 3D 化偏写实风格的数字人凭借高仿真的外形和交互能力获得超高关注，代表角色有 AYAYI、柳夜熙等，然而这类数字人自带 IP 属性，由于生产成本过高，其模式难以大批量复制投入市场。

在正式进入成熟阶段之前，数字人产业因 ChatGPT 等 AI 的出现走向了新的分支，这期间各产业与数字人的融合更加紧密，且 AI 不再局限于融入数字人的制作流程，而是能直接赋予数字人情感表达、内容输出和规模化应用的能力。

纯 AI 驱动的数字人已经走向新高地，其技术构成主要涵盖外在形象、决策交互和多端部署等方面。

外在形象：AI 数字人外在形象塑造技术取得显著进展，源于计算机图形学、计算机视觉、神经网络、深度学习等方面均取得重要突破。传统建模方式流程繁琐且效果有限，如今数字人建模算法仅需少量视角的图片 / 视频 / 音频就可生成新样本，再对数据进行渲染从而生成更具真实感的三维数字人形象。

EchoMimicV2 数字人——输入 1 张图 +1 段手势视频 +1 段音频，即可生成有自然动作的数字人

决策交互：实现 AI 数字人与用户流畅智能交互，依赖语音识别（ASR）、语音合成（TTS）、自然语言理解（NLP）、AIGC、大型语言模型（LLM）等能力，以及知识图谱的构建和深度学习能力来完成分析决策，实现与数字人的实时交互，在智能客服、智慧屏等 ToB 应用场景，AI 数字人表现出色。

Tavus：实时音视频对话数字人——能听、看到、理解用户的话，并做出有感情的回复

多端部署：多端部署对 AI 数字人的价值发挥至关重要。具有实用性的 AI 数字人需要支持多平台运行，这意味着它需要强大的传输能力、云计算、边缘计算等能力来保证高质量、和低延迟的人机交互服务。

硅基智能开源实时数字人 duix.ai ——可在各种终端设备上部署

上述数字人从外形和面部表情来看足够以假乱真，用户所希望的是一种更有 " 活人感 " 的数字人。2 月 6 日，字节跳动推出 OmniHuman-1 数字人模型：可从单张照片及一段音频生成逼真全身动态视频，据悉 OmniHuman 是经过超 18700 小时的人类视频数据训练而成的。

字节跳动 OmniHuman-1 数字人模型

在 AI 数字人这条赛道上能看到阿里、百度、京东、腾讯等企业的加入，现在 AI 数字人的产品和落地场景都得到了验证，然而最关键的成本问题则会随着国内训练的模型的增多而进一步缓解。

硅基数字人 HeyGem.ai 模型

3 月 6 日，硅基智能在 GitHub 开源了硅基数字人 HeyGem.ai 模型，用户只需要上传 1 秒视频或者一张真人照片，就能在 30 秒内输出还原本人音色和外貌的 60 秒数字人视频，且支持离线克隆数字人的形象和声音，以及 4K 画质导出。此开源模型一发布，开发者、企业甚至是个人用户都能以更低成本创建 AI 数字人。

当 AI 数字人在虚拟世界构建起完整的交互生态时，技术的边界正悄然向物理世界延伸。

AI 的另一个进化方向：具身智能 - 人形机器人

作为 AI 大模型中最先进行商业化尝试的应用之一，AI 数字人在多数人眼中像是人机交互的门户，如今已经能与人类进行无障碍交流。随着技术发展，人们不禁思考，数字人会不会从平面的虚拟形象概念发展到具有高度智能和仿真交互能力的实体数字人，甚至能在某些场景中辅助人类完成任务？

具身智能是指将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。如今，具身智能已经走到台前，并首次被写入政府工作报告。

人形机器人是具身智能的一类代表性终端，其核心特性则是强调机器人的身体要与物理世界的环境有动态交互，包括执行抓取、移动、操作物体等物理动作，而纯软件系统，如 AI 聊天机器人 /AI 数字人则无法实现这类交互。

2025 年，人形机器人热度颇高。在 CES 大会上，英伟达宣布合作的 14 家人形机器人厂商中，有近半数来自中国，包括小鹏汽车 XPENG（Iron）、宇树科技 Unitree（H1）、银河通用机器人 Gallbot（G1）、傅利叶智能 Fourier（GR-2）、星动纪元 ROBOTERA（Star1）、智元机器人 Agibot（A2）。

具身智能的发展速度超乎想象，如今人形机器人的上新时间间隔已经缩短到以天为单位，进入量产前的热身阶段。比起外形，人形机器人的现阶段的首要任务就是优化 " 大脑 " 能力并提升运动能力。

3 月 11 日，稚晖君时隔两年发布新视频，展示全新的智元机器人灵犀 X2，能走、能跳舞、能骑自行车，在此之前稚晖君还发布了首个通用具身基座模型——智元启元大模型（Genie Operator-1），该大模型能够通过学习人类视频并训练，完成小样本快速泛化，最终部署到智元机器人的本体上。

3 月 19 日，英伟达 CEO 黄仁勋在 GTC 2025 大会上发表了主题演讲，并宣布推出 Isaac GR00T N1 通用机器人模型，使通用人形机器人能够理解人类世界、遵循语言指令并执行各种任务，其目的就是加速人形机器人的开发和能力提升。

两个 Isaac GR00T N1 人形机器人用双臂搬运物体

黄仁勋将机器人描述为下一个 10 万亿美元的产业，并表示到 2030 年年底，全球将面临至少 5000 万劳动力短缺的问题，未来将雇佣更多机器人来工作。

宇树 G1 机器人的 " 侧空翻 " 和波士顿动力机器人 Atlas" 跳街舞 " 挑战高难度动作，让人形机器人再次火出圈，这些动作对机器人精确控制身体各部分的运动轨迹和姿态的能力要求颇高。

宇树 G1 机器人

波士顿动力机器人 Atlas

宙世代

一起剪

相关标签