罗永浩,干不过罗永浩???
今年 618 大促,罗永浩数字人百度电商直播上岗," 一不小心 " 就创造了个纪录——
带货单量超 5 月罗永浩真人百度电商直播首秀同期数据!
只见交个朋友直播间中,不单单罗永浩一个数字人现身,还有朱萧木(交个朋友直播间副主播)数字人担任 " 助播 "。
俩 " 人 " 全程互动配合默契,说话、动作、神态那叫一个自然。
看视频效果,和真人直播不能说一毛一样吧,那也是真假难辨的程度!
甚至有人在评论区问老罗 " 你是不是真人在扮演 AI,要是被威胁了就眨眨眼 "。
就连罗永浩本人 " 罗氏幽默 " 的特色直播风格,数字人也能高度复刻。
比如罗永浩数字人卖花生油:
有人问吃花生油会不会变胖,胖也没关系,我们有一款 T 恤可以穿到 200 斤,你在我直播间就能形成闭环。
各种花式回答,让人眼前一亮又一亮,自嘲式回复网友问 " 棉柔巾脸大得用几张 ",be like:
你脸大有多大?能有我 210 斤的脸大吗?我也就使用一张就够了。
一场直播下来俩数字人真的是赢麻了,战绩斐然:
不仅直播吸引了超 1300 万人次观看,GMV(商品交易总额)突破 5500 万元。
甚至部分 3C、食品等核心品类商品带货单量,罗永浩数字人超过了罗永浩真人 5 月份在百度电商直播首秀的同期数据,用户平均观看直播的时长也超过了 5 月真人首秀。
这究竟是怎么做到的?
数字人直播现在都进化成啥样了?
在最新百度 AI 开放日慧播星专场现场,百度同步智能电商进展,其中就揭秘了罗永浩数字人背后的秘诀。
原来,这次出战 618 的罗永浩数字人,是由百度电商数字人直播工具慧播星打造的高说服力数字人,本质上是一个具备形象 + 感知决策 + 行动的超级智能体。
相比以往数字人,慧播星高说服力数字人实现了四大突破。
首先,上线了业界首个双数字人互动直播间,体验大突破。罗永浩和朱萧木两个数字人能默契配合进行互动讲解就是基于此。
双数字人互动直播间还原了 " 主播 + 助播 " 真实直播状态。
得益于百度视觉大模型 + 语音大模型的全面升级,双人讲解时采用双音轨,不仅衔接更自然,而且支持打断说、同时说,能适配更复杂的场景。
观众在观看时很难看出什么破绽,就像是在看真人直播。
其次,慧播星推出了全新大师级别剧本模式,直播内容实现了突破。
现在,直播剧本生成不再是简单的脚本生成了,文心大模型 4.5 Turbo 加持,数字人能轻松复刻出个人直播风格。
这种人格化表达让数字人直播告别机械感,有网感,懂热点。
比如结合刚结束的四六级考试也能讲段广告词:
另外一大突破是视觉上的,慧播星高说服力数字人在业内率先实现了多模高度融合。
数字人由动作驱动,动作、表情、语调等多模态都能自动贴合话术表达进行配合。
比如在介绍护肤品的功效时,数字人会一边摸着自己的抬头纹、颈纹,一边讲解。
另外,它还能基于脚本实时调度素材,画面衔接也更流畅自然。
第四点是整体直播效果上的突破,负责直播控场的 AI 大脑全面升级。
在直播过程中,AI 大脑会主动邀评,吸引直播间用户参与互动;同时能即时回复用户评论,哪怕是复杂直播场景,应对起来也游刃有余。
除此之外还有多种玩法,比如发福袋、在评论区抽幸运观众送礼物等,智能体能够实时控场促进转化。
活动现场,百度还宣布了百度优选和交个朋友正式达成战略合作,罗永浩成为慧播星首席体验官。
交个朋友副总裁吴加录直言,看到罗永浩数字人的表现有被惊吓到,逼近真的效果让他担忧——罗永浩本人要失业了?
背后 " 黑科技 ":多模协同的数字人技术
深入探究这一系列突破的底层逻辑,会发现百度采用的是自研的以语言模型为核心驱动、多模协同的数字人技术解决方案。
从技术上来看,数字人若要在长时间内维持高水准的一致性与拟真性表现,单一模型显然无法满足需求。
百度的技术路径是以语言模型作为核心驱动单元,通过语言模型生成直播剧本,再通过剧本指导协调语音、视觉等多模态系统实现动态交互,最终塑造出有高表现力、形神兼备的数字人形象。
具体来看其中关键环节的技术。首先是剧本生成,其重点之一在于数字人台词生成。
台词包括多样化风格、拟真化人设和具有吸引力的内容。
其中多样化风格,涉及风格建模、风格生成和风格定制;拟真化人设,需要模型在台词生成上建设相应的能力,包括人设建模、人设还原、多角色协同;吸引力内容靠的是内容规划、深度思考以及知识增强。
此外,基于大语言模型的剧本生成也包含视觉标签、语音标签生成,以实现多模驱动的协同。
在大模型协同过程中,这些标签是开放级的,由这些标签驱动的语言来进行语调和风格的控制。
以罗永浩数字人剧本为例,基于文心大模型 4.5 Turbo 生成的剧本,需要展现主播的个人特色,具备典型的罗氏幽默风格,并能够实现双人主播的内容协同,动态实现丰富的实时互动。
剧本生成后,关键环节还包括语音合成和视频生成。
语音合成方面,数字人场景对语音合成提出了更高的要求,和以往朗诵式语音合成有很大区别。
最主要的区别在于数字人需要语音自然流畅,但在讲述不同内容时还要有抑扬顿挫感,在一些情况下甚至需要激情澎湃感以感染观众。
百度在这方面的做法是:
通过文本自控的语音合成大模型的,实现高复原的语音合成能力,再结合直播台词及发音人特征,合成风格适当、自然流畅的声音。
具体到罗永浩数字人的这场直播,还要面对老罗和朱萧木直播中双人声音配合的难点,对此百度采用了对话上下文编码器,把对话历史输入和当前对话进行语音合成的统一推理计算,最终才让我们看到了流畅、自然的双人对话效果。
还有一个关键环节是数字人形象生成与驱动。
视频生成方面需要进行高表现力动作对齐,以及支撑唇动、表情生成和对齐。更重要的是,数字人不只是一个视频,数字人还要和用户实时进行动态交互。
目前市面上存在大量视频生成模型,可以生成 10s、20s,甚至 30s 的视频。但数字人要进行直播工作,这些还远远不够。
数字人需要的是小时级的一致性,而且还要高表现力,人、物、场要能自由交互。
百度为此建设了数字人形象生成和驱动的一整套技术,让数字人具备多模协同、高表现力、复杂交互能力。
该技术是一个可控的、长视频的生成工作;通过视频、剧本、语言、骨骼等特征,结合多模态视频理解、跨模态信号生成、视频生成等技术,实现了高一致性数字人长视频的生成。
普通人都能人均一个 " 主播 " 头衔
数字人技术的突破,不只促成了罗永浩数字人直播的成功。现在使用数字人技术的门槛越来越低,即使没有团队、没有直播经验的新人主播,也能轻松 get 数字人分身。
一些中小商家早就用这种模式,实现 7 × 24 小时不间断直播,订单量猛涨。
真实案例如三农领域创作者东北翠花,通过短视频分享东北的风土人情和美食,之前对于直播却缺少经验,效果一直不理想。
而通过慧播星,翠花的数字人直播间深度结合生活场景,利用极具地域特色的乡村环境、贴近日常的呈现方式,构建强代入感的消费氛围。
用户产生了情感联结与消费信任,驱动订单量实现 10 倍增长。
另一个案例是新会陈皮的源头产地商家广芸堂。
过去做真人直播时,广芸堂一直受主播差旅、时间调配这些高额成本所困。数字人突破了这一限制,借助技术优势,一边直观呈现原料生长的真实环境,一边通过灵活切镜,把陈皮的色泽纹理、触感细节等细微品质,全方位清晰展示。
" 产地直采、品质可控 " 的概念转化为可视化、可感知的体验,大幅强化消费说服力,直接助推 GMV 实现 160% 的增长。
数字人技术的规模化落地,正是百度 AI 战略深度实践的重要印证。百度优选平台作为国内最早提出智能电商的平台,率先探索 AI 应用场景实践。
数据显示,目前已经有累计超过 10 万的商家在百度通过数字人直播,覆盖电商、教育、医生、法律等几十个行业,使用了数字人直播的商家 GMV 平均提升 62%,降低了 80% 的开播运营成本。
现在,伴随 618 大促,百度还发布了两大计划扶持商家:
梦蝶计划,通过流量扶持,超头主播数字人打造、预算扶持,实现百度优选超头主播的数量倍增。
繁星计划,再次追加 10 万个慧播星数字人,投入 1 亿元数字人消费补贴,千万级别的运营扶持,帮助更多的普通人、中小企业开启数字人直播。
数字人技术不是顶级主播的专属,而是普惠共享的新型生产力。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
点亮星标
科技前沿进展每日见
登录后才可以发布评论哦
打开小程序可以发布评论哦