
智东西
作者 | 李水青
编辑 | 漠影
今年 6 月,罗永浩的数字人登上百度电商直播间,连续 6 小时不间断 " 带货 ",一边调侃、一边拎着可乐、喝着奶茶,与助播朱萧木的数字人一唱一和,引发 1300 万人次围观。这场直播最终实现 GMV(商品交易总额)5500 万元,刷新了数字人带货纪录。
罗永浩的数字人直播
现在,驱动这场直播的 "AI 总导演 ",站上了世界互联网大会乌镇峰会的领奖台。
在 11 月 6 日至 9 日举行的 2025 年世界互联网大会乌镇峰会上,百度 " 剧本驱动多模协同的高拟真数字人技术 " 荣获领先科技奖,实现连续三年获奖。

百度 CTO 王海峰在讲解高拟真数字人技术
从罗永浩的数字分身到世界互联网大会的领奖舞台,我们看到数字人好像跟前几年我们印象中的不一样了,一个问题随之浮现:
让数字人跨越 " 形似 " 的初级阶段,进入 " 神形兼备 " 的全新境界,百度是如何做的?
一、乌镇大会上的 AI 新风向:数字人成大模型经典落地场景
世界互联网大会 " 领先科技奖 " 是全球互联网科技发展的一个风向标。
在今年的世界互联网大会乌镇峰会上,评审委员会从 34 个国家和地区征集了 424 项科技成果,经海内外专家评审,最终遴选出 17 项年度领先成果。
其中,作为融合了大语言模型与多模态技术的创新应用,百度 " 剧本驱动多模协同的高拟真数字人技术 " 成功入选。一同入选的还有中国科学院计算技术研究所、中国科学院软件研究所的 " 处理器芯片软硬件全自动设计 ",清华大学 " 北斗三号卫星导航信号关键技术及应用 " 等成果。

2025 年世界互联网大会领先科技奖颁奖现场
当下,数字人正成为 AI 最具代表性的落地场景之一。百度 " 剧本驱动多模协同的高拟真数字人技术 " 体现了这一趋势,不仅是语言、视觉、语音技术的融合创新,更是百度多年 AI 技术的集大成者。
从 2023 年 " 知识增强大语言模型关键技术 " 到 2024 年 " 文心智能体技术 ",百度成为唯一连续三年获奖的人工智能公司。
二、何以 " 高拟真 "?5 大核心技术,为数字人注入 " 灵魂 "
过去我们谈数字人,更多是关注 " 像不像 ";而今天百度的数字人,已经进入 " 神似 " 的维度。何以 " 高拟真 "?
其核心,在于以文心大模型为内核的 " 剧本驱动多模协同技术 ",让数字人具备了自我理解、规划和表演的能力。该技术有以下五大创新点:

1、剧本驱动多模协同:为数字人注入 " 灵魂 "
传统数字人依赖人工脚本和单模态驱动,而百度的这项技术能生成一份真正意义上的 " 剧本 ", 剧本生成的核心在于语言模型驱动下的多模态协同,不仅有 " 说什么 ",还有 " 怎么说、说的时候怎么配合动作表情 "。
比如,当提到 " 法令纹 " 时,视觉系统会自动指向对应面部区域;当数字人 " 送福利 " 时,语音模块会自动调整语调,表现出兴奋情绪。甚至在双人互动时,还能标记 " 在哪个词后接话 ",实现无缝对话。
这让数字人不再只是 " 说话的模型 ",而是真正拥有导演级的多模态表达协调力。

2、融合多模规划与深度思考的剧本生成:让对话自然流畅
数字人不止能说台词,还能 " 思考剧情 "。百度通过融合多模规划与大模型推理,实现了对对话上下文的整体理解。
在直播中,数字人不仅能按照预设剧本推进,还能根据直播间实时热度及用户反馈,智能调整讲解节奏与互动内容,实现衔接自然的动态交互。
这正是数字人老罗能秒接网络热梗,展现出鲜明人设与活泼语言风格的技术基础。
3、动态决策的实时交互:赋予 " 临场反应 " 能力
基于大模型的实时感知与决策能力,数字人不再是单向输出的播报机器,而具备了类似真人的现场 " 判断力 "。
它能够理解弹幕评论、感知直播间氛围,并据此做出实时反馈,如回答用户提问、玩梗互动、调整讲解策略,从而极大提升了互动的真实感与用户的参与感。
4、文本自控的语音合成:告别 " 机械朗读 "
声音,是数字人 " 灵魂 " 的另一半。百度的语音合成大模型通过 " 文本自控 " 机制,让声音摆脱机械朗读感,实现与表达与语义、情绪高度一致。
其核心在于,模型能深度理解直播台词的文风与语境,并结合发音人(如罗永浩)的独特特征,将文本信息 " 翻译 " 成自然、富有感染力的声音。
通过对话上下文编码器,百度解决了双人直播中声音配合的难题,实现了罗永浩与朱萧木数字人之间流畅、自然的对话效果。

5、高一致性超拟真长视频生成:挑战 " 时长极限 "
数字人直播常常持续数小时,如何让其在长时间内保持表情、动作和场景的自然连贯,是一项行业难题。
百度通过结合多模态视频理解、跨模态信号生成等关键技术,攻克了高可控交互、长时间一致性保持等业界难题,实现了高一致性、超拟真的数字人长视频生成,将 AI 视频生成的应用边界从 " 秒级 " 拓展至 " 小时级 "。
罗永浩数字人直播 6 小时全程动作自然、视线交互精准,就是这一技术的成果。
可以看到,百度以 " 神、形、音、容、话 " 的统一能力,构建一个兼具表达力与情感力的数字人系统。它不只是模仿人类,而是在理解人类表达逻辑的基础上 " 再创造人类体验 "。
三、从罗永浩到万千场景:10 万数字人,让开播成本暴降 80%
顶尖的技术价值,最终需要通过大规模应用与实实在在的商业效益来验证。
在百度,这项获奖技术的规模化落地已现成效。官方数据显示,基于该技术已生产超过 10 万个数字人,覆盖电商、教育、法律、健康等数十个行业,助力商家开播成本降低 80%,直播转化率提升 31%。
以 " 罗永浩数字人 " 为例,其 6 月 15 日的首秀不仅是技术实力的展示,更是一场成功的商业实践:
整场直播持续 6 小时,AI 调用知识库 1.3 万次,生成 9.7 万字产品讲解内容,双数字人搭档做出超 8300 个动作。从直播效果来看,整场直播吸引 1300 万人次观看,GMV 突破 5500 万元,部分核心品类带货单量甚至超过罗永浩 5 月真人首秀同期数据。
罗永浩本人也通过视频表示 " 让我惊讶 "、" 完美收官 ",称数字人直播 " 可能代表了电商直播的新趋势 "。
罗永浩的数字人直播
技术红利正渗透至千行百业。在山东德州夏津县,三位平均年龄超 65 岁的老支书,借助百度 " 慧播星 " 数字人技术,进行 7×24 小时不间断直播,精准讲解产品、实时回复问题。开通数字人直播短短一个月,他们的地瓜直播间订单近万单,总销售额突破 15 万元,成功售出农产品 3.3 万斤。
据悉,这种 " 真人 + 数字人 " 双轨模式已形成可复制的助农路径——百度电商 " 一村一品 " 项目通过 " 慧播星 " 等技术,累计帮助全国 1000 多户农民增收,商品交易总额超 2500 万元。
可以看到,从超头主播的直播间到田间地头的助农现场,百度数字人技术正在智能客服、虚拟教师、数字代言人、互动娱乐等多个领域落地开花。
结语:AI 数字人迎技术产业升级,带来商业新增长点
从罗永浩直播间里那个能接梗、会互动、神形兼备的数字人,到赋能十万数字人降低商业成本、提升转化效率的产业平台,我们看到,以大模型为核心的 AI 数字人技术,已成为驱动产业升级、创造商业新增长点的强大引擎。
数字人的发展,已走过 " 形似 "、" 神似 ",正进入百度所定义的 " 高拟真 "、" 高说服力 " 阶段。而未来,数字人或将真正在某些方面超越真人,实现超长待机、千人千面、多语言多风格的极致服务。
过去的十年,百度在 AI 上的每一次突破,都像是铺设通向未来的基石。世界互联网大会展现出的新风向表明,技术长期主义与系统化布局是推动智能产业发展的必由之路。


登录后才可以发布评论哦
打开小程序可以发布评论哦