人人都是产品经理 04-28
虚拟数字人的应用和观察
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

随着 AI 的出现,虚拟数字人逐渐成熟,而让虚拟人富有生命力和有影响力,是当前未来的行进方向。作者总结了虚拟数字人的应用和观察,一起来看看吧。

生成式 AI 的技术让虚拟数字人不仅仅只有系统设置好的能力,更可以具备 " 灵魂 "。

如何让虚拟人有生命力和有影响力,是未来行进的方向。

21 年我关注这方面的时候,大部分还是处于电影特效环节,一个真人需要穿一些专业的动捕设备,然后需要设计同学进行大量的人工建模和绑定;

23 年年底到现在我再次对这个行业的现状进行了一些摸索,发现确实有了惊人的迭代。

刚开始还是处于应用本身的更新,22 年我有次在广州一个展会上看到了做数字人直播的 SaaS 公司,印象非常清楚,当时还询价,大概是 8000/ 人 / 月;而且其他的展位都是有商品的,只有这家放了 ppt,而且连海报都还没有,只是一个黑白 A4 纸,打印的产品说明。

当时这家公司的人还是一些 " 假人 " 建模出来的,并且音和形的拟合度也非常低。

整体观看,非常假。

但是时日至今,现在确实能够够看到一些还不错的数字人。

一、虚拟数字人的几个常见应用

1. 虚拟偶像

产出一些音乐、小短剧、照片等,主体基本由公司进行运营,在各大社交平台进行圈粉。

商业化变现路径:粉丝经济

代表作:洛天依(二次元音乐)

柳夜熙(剧情)

2. 虚拟主播

播音主持专业赛道,对新闻、综艺等进行专业的主持;也有在抖音小红书代替真人出镜,呈现内容;

商业化的变现路径:节省人力 + 资本价值

代表人物:央视的主播小 C

3. 数字员工

服务于企业,多有 IP 属性、品牌代言和跨界属性,带来一些 " 噱头 ",视觉效果加持,提供一些客服能力。

商业化路径:品牌价值、资本价值

代表人物:百信银行的员工 AIya

4. 虚拟导游

服务于各地的文旅局,作为旅游 IP 的特性进行呈现;现在这这两年的商业化路径看起来还不错。

古人现代化呈现(虚拟李白)

商业化路径:代言人、AI 概念加持

代表人物:刘三姐

5. 数字分身

概念:大多数是对现实生活中的人提供一个第二数字分身进行呈现,比如现在的老黄,主要是作为公司的代表作进行呈现,比如最近的刘强东直播、黄仁勋数字分身。

二、技术方案

实现路径:造个虚拟人出来–>能表达(说话不假)—>能够产生交互(能回复问题)

最原始的状态:动捕设备 + 手工渲染

现在的方案:

1. 人怎么造出来

手动建模:通过 unity3D.c4d 等等都可以建模(原始)

AI 绘画的技术:

文生图通过文生图的形式,构建一个人 ( 通过

AI 换脸通过真人图像转虚拟人的形式(比如抖音的一些头像、写实画像转二次元、妙鸭 ..)

2. 人怎么动

真人驱动:通过动作捕捉设备进行关联,记录动作坐标;

代码驱动:对生成的数字人模型进行骨骼、表情的绑定以实现后续驱动;

智能驱动:通过动作的描述、口型、表情,等等,自动进行有动作流的绑定与生成。

3. 声音拟合

这里就像是我给一个视频配音,如何提高精准度,这里大家应该都感受过,需要一直不断地拉大视频的帧,这样才能对的更整齐

但是这里还有一个问题,我们还需要让这个人的口型和语音对上,这个其实就是一个技术难点了(比如前几年电视剧的后期配音大家是非常能明显的感觉到区别)

过去的做法,是我需要人工把人物模型说话的模型建模渲染出来,然后让语音对齐这个口型;

口型动画生成技术:现在的技术已经攻克了口型和语音的自动拟合,能够实现我通过语音驱动这个人物模型的口型;

但是坦白讲,随着语言而变动表情和语气,这个点,确实现在还没有看到,或许也是成本太高了,一时半会不太能呈现出来。

4. 如何产生交互?

对话这件事情,现在已经有了生成式大模型、知识库,对于信息的输入和赋予灵魂的输出,这件事情,倒不是技术困境了,阻力核心还是集中在,如何结合多模态让人类感知到这个 " 数字人 " 真实性。

三、未来来商业化的方式(个人思考)

1. 电商的应用场景,真实度提升的那一刻,虚拟主播会逐步进入大家的世界

现在能看到的一些数字人直播间还是非常初级的阶段,大多还是基础的实现口播,在情绪和问答数据交互上存在一些瓶颈,但是这些是可以通过现有的模型技术进行解决的,相信很快会有大的厂商在这里解决这里的技术问题

在一些大厂的基础商铺会首批上线,比如集团下的多个化妆品品牌等等;

一些本地生活的连锁门店的直播间,交互范围有限,且需要靠抖音直播的时长来转化优惠券和流量的;

四、文旅行业会快速落地

现在各地的文旅局,都在推进 AI 的应用,不管是博物馆的 ar 眼镜还是一些全息投影叠加 AI 人物的生成

导览数字人、代言人,这些都可以快速提升游客的感官体验。并且在这个场合中," 假 " 并不会被过度放大。

eg:上次在山东省博物馆和河南省博物院,都有看到类似的应用,通过 ai 的方式展现了京杭大运河当前的开凿和状况;还有李白杜甫这些诗人的经历,都有通过虚拟人 + 生成式视频 + 现场交互的方式,给游客带来较好的体感

助手数字人化

日常大家会使用 siri 和小爱同学等等的语音对话助手,但是这里的 siri 是一个同样的 siri,而且只是语音

如果现在你可以真实的构建一个数字人助手,可以 yy 一下,我可以线上设定他参数,比如我希望他是 boy or girl ,语气是怎么样的,学历背景和工作履历是如何的,从一维二维的对话,走向三维的视频,同时再结合一些 VR 眼镜等等硬件,可以在特定的环境实现真实对话。。纯 yy 暂无一些资料表明。

五、国内的一些商业化方案

1. 单一 IP 的定制化方案

强定制化品牌形象的数字人:央视电视台主播、政务 IP

卖捏好的人(SaaS 方案)-for 电商直播(百度的智能云) 

软硬件一体化方案 -for 电商(讯飞)

重点发力重视数字人直播赛道

会员制,卖时长和做好的视频– For 内容制作者(云平台)如影

数字员工解决方案(小冰)

六、技术困境

1. 生动性:包括最近大家看到的刘强东京东直播,都是非常死板,没有 " 人味 "

虽然解决了口型的问题,但是对于情绪和表情上,还是没有办法进行通用的商业化,这里在未来的一段时间必然是攻克的瓶颈。

2. 算力:大模型的通病了,如何降本,让这件事情走进千家万户

本文由 @闻一 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

智慧云

智慧云

ZAKER旗下新媒体协同创作平台

相关标签

ai 音乐 刘三姐 李白
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论