硅星人 06-23
一场没有“罗永浩”的直播,为百度AI正名
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

5500 万 GMV,这可能是迄今为止,一个 AI 数字人单次直播带来的最高销量。

过去几年内,数字人直播代替真人主播的传言总是一波又一波,空无一人的直播基地无数手机屏幕 " 自动地 " 产生着 GMV,这个画面曾经击中了无数网友的心。但现实是,这些数字人们机械重复的动作、无法随机应变的话术反而让真人主播们都松了一口气。

但这次,真正的转折点来了。6 月 15 日,罗永浩数字人在百度直播的第一次亮相,连播近 7 小时,达成了 1300 万人次观看、GMV 突破 5500 万的成绩,不仅破了 AI 数字人圈里的记录,甚至超过了真人的记录——互动量超真人直播间 3 倍。

一直以来,数字人技术成熟度的一个核心评判标准,都是与真人主是否存在差距,以及有多大的差距。而在此次的直播间,弹幕里 " 这是真的还是假的 " 的评论不断刷屏,已经证实了这次 AI 数字人的惊人效果。

更重要的是,这不是一次炫技式的表演,而是百度 AI 在真实商业环境的实战演练。当整个行业还在为文生视频的 " 确定性 "  ,百度已经用 AI 为商家和创作者们端起了第一个能真正 " 养活 " 自己的 " 饭碗 "。

如何用 AI 炼成 " 真 " 罗永浩?

这背后并非单一模型的技术突破,而是一套多模协同的数字人技术简单来说,这套技术将语言大模型置于 " 总导演 " 的位置,统筹指挥着语音、视觉等各个 " 演员 ",完成了一场几乎以假乱真的演出。

与传统数字人技术形成鲜明对比的是,过去的方案往往采用语言、语音、视觉三条独立流水线,各自生成内容后再强行拼接,这必然导致音画不同步、表情僵硬、言语乏味等问题。

百度的技术方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人 " 神、形、音、容、话 " 的高度统一。最终呈现出一个具备高表现力,内容吸引人,人 - 物 - 场可自由交互的超拟真数字人。

具体而言," 剧本 " 模型扮演了总指挥的角色。它在生成时输入的并非只有文本,而是包含商品信息、历史视频、主播人设要求等多模态信息。剧本会生成对视觉和语音的具体要求,即所谓的 " 标签 ",为后续的视觉和语音模型提供方向性指引,从而确保内容、语气和表情在语义上的高度一致性。

百度集团副总裁吴甜告诉硅星人,多模态协同的难点在于多个模型对于要求的理解是一致的。这意味着从剧本(导演)到语音、视觉(演员),整个团队对表演基调有统一认知。同时,各个演员(各模态模型)又保有自己的 " 发挥空间 ",比如语音模型会根据自身对文本的细粒度理解调整语调顿挫,而不是完全被剧本的词语锁死。

以罗永浩数字人剧本为例,基于文心大模型 4.5 Turbo 生成的剧本,充分展现了主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。

在单体完成 " 真老罗 " 的打造后,体现直播生命力的实时互动成为另一个更关键的挑战。面对评论区海量、无序的用户提问,以及与助播的配合上,数字人如何做到实时、自然的回应?这背后是一套动态决策系统。

在直播过程中,模型并非对每个问题都立即回复。系统会对评论区进行智能分析,结合主播当前的讲解节奏,选择合适的时机、合适的问题,以及合适的回答策略进行触发。这种 " 谋定而后动 " 的机制,远比简单的 " 一问一答 " 更接近真人主播的互动逻辑。

为了彻底解决实时生成的延迟问题,百度采用了 " 流式生成 " 的工程化设计。语言、语音、视觉三个模态并非串行等待,而是像流水线一样并行工作,极大缩短了用户感知的时延。同时,系统采用 " 离在线统一 " 的方法,部分可预见的交互内容可以提前处理,而需要即时反应的部分则在线动态生成。通过系统性优化,成功解决了生成视频这类高耗时任务的卡点问题,最终实现了丝滑的交互体验。

更进一步地,在双人直播中,大量的打断、复说、抢话等场景对语音合成提出了极高要求。吴甜提到,通过引入 " 对话上下文解码器 ",模型能够结合历史对话信息进行推理,从而实现老搭档之间那种默契、自然的对话流。

在数字人形象生成以及驱动方面,百度通过结合多模态视频理解、跨模态信号生成、视频生成等技术,克服了高可控交互,高精度、长时间一致性保持等难点,实现了高一致性超拟真罗永浩数字人长视频生成。

而且在此过程中,能保证语音、口型、表情与动作始终保持高度同步,从而实现真正的「音、容、话」一致。

从炼成 " 罗氏幽默 " 到跑通商业闭环,百度数字人不仅为行业树立了新的技术标杆,更重要的是,它为 AI 技术如何从 " 热搜 " 走向真实的生产线,提供了一份极具说服力的答卷。

不要 " 超级应用 ",要 " 超级有用 "

对于在直播电商红海中拼杀的千万商家而言,现实的挑战正变得愈发尖锐:头部主播签约费动辄千万,自建团队每月固定开销数万甚至数十万,而流量获取成本却在持续攀升。在这种环境下,如何在保证效果的前提下控制成本,成为每个商家必须面对的生存课题。

数字人技术,一度被视为破局的希望。然而,早期的数字人更像是一个 " 不知疲倦的播报员 ",形象呆板、互动生硬,无法传递信任,更遑论激发购买欲。它们解决了 " 有没有 " 的问题,却没能解决 " 好不好用 " 的核心痛点。市场真正需要的,不是一个仅仅能节省成本的 " 工具 ",而是一个能真正替代真人、创造价值的 " 战力 "。

那么,一个 " 真正可用 " 的数字人到底意味着什么?它不仅要形象逼真,更要具备三项核心能力:能理解商品、能与人互动、能建立信任。罗永浩数字人直播的案例,恰恰为这三点提供了行业标尺。它不再是简单的产品复读机,而是能用 " 罗氏幽默 " 与观众调侃,能根据实时提问调整讲解策略,最终实现了与真人主播几乎无异的带货效果。

从商业角度审视,这背后反映的是两笔关键账目的变化:

第一笔是成本账。数据显示,数字人直播能平均降低约 80% 的成本。这意味着商家可以将过去投入在昂贵主播身上的预算,转移到供应链优化和市场推广上,彻底重构成本结构。千元级别的投入,就能获得一个 7x24 小时在线的主播,这在过去是不可想象的。

第二笔是效率账。在保健品、教育、旅游等需要深度讲解的品类上,知识储备无限、表达精准无误的数字人,其转化效率已开始超越真人。对于拥有好产品但缺乏优秀主播的商家,或是不希望核心名师被直播消耗的教育机构而言,数字人代表着一条全新的增长路径。

" 好用 " 的数字人并非凭空而来,它的出现反映了不同公司在技术路径上的战略分化。当我们从市场应用效果反推其背后的技术逻辑时,百度的选择便清晰地浮现出来。

当前行业的主流叙事集中在卷模型,各家比拼参数规模和基准测试成绩。而百度的路径更偏向卷应用,这一选择的底气源于其在多模态技术上的长期积累。

这种 " 应用为王 " 的战略,最终指向的是生产力的规模化落地。复刻罗永浩更多是技术天花板的展示,其真正的商业价值在于将这种能力以低门槛、可复制的方式赋能给广大中小商家。百度电商总经理平晓黎在接受采访时表示,相比追逐头部 IP,更倾向于 " 让更多的中小商家、腰部商家,还有创作达人能够做起来 "。

更关键的是,这条路径验证了 AI 产业期待已久的商业闭环。从行业发展的角度看,罗永浩数字人直播的意义远超一场带货本身。它为 AI 产业提供了一个清晰的价值验证:技术的最终价值必须通过为实体经济创造可度量的商业成功来检验。这种 " 超级有用 " 的路径,或许比追逐 " 超级应用 " 的概念更具现实意义。当然,这种模式能否被广泛复制,以及在更多垂直领域的适用性,仍需要市场的进一步检验。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 百度 罗永浩 导演 统筹
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论