量子位 08-16
《Her》有形象了!给AI打视频电话,几乎无延迟,红杉YC投了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

史上最快对话视频 AI 来了,延迟不到一秒

端到端,能听、能看、会说、有形象。

这个产品并不是出自 OpenAI 或 HeyGen 这样此前已经大展身手的公司,也没有一个具体的名字。

因为来自创业团队Tavus,因此也被称为 Conversational Replicas by Tavus。

主要功能,就是搭建一个身临其境般的 AI 生成视频体验。

今日上线后,已经冲上 Producthunt 今日新品热榜第一,点赞数还在不断上升中。

Tavus 官方为大家把产品特点总结了一把:

延迟小于一秒

现实、智能的数字孪生

即插即用的端到端构建块

模块化、可定制的组件,例如 LLM 语音合成

看得网友热血沸腾的:

好了,这下有 " 人 " 替我开 ZOOM 视频会议了哈哈哈哈!

也有不少网友把这视为比阅读文档 or 聊天更好的人机交互界面

这个会话视频界面改变了游戏规则!

我已经可以想象沉浸式体验的无限可能性。

可在网页端试玩 2 分钟

看到这则讯息,量子位一秒冲到了 Tavus 的官方网站。

在官网上,可以在线体验 2 分钟这个 " 史上最快对话视频 "。

根据既有设定,体验时的对话对象是 Tavus 塑造的卡特

卡特的形象定位是 AI 视频研究公司 Tavus 的一名员工,以幽默的方式回应,同时很乐于助人。

就是下面这个男人:

虽然卡特是个虚拟人形象,但和他视频,就像和自己朋友视频一样。

官方建议,授权摄像头和麦克风后,和卡特聊天的时候尽量呆在一个安静的房间里。

以下是网友的在线试玩录屏:

卡特在交谈中提到,人们最喜欢跟他讨论的几个话题,除了跟他打听 Tavus 运用的 AI 技术,就是分享自己的每日心路历程,以及讲笑话。

他当场就讲了个笑话:

问,为什么自行车不能靠自己就站在那儿?

答案是,因为它 too tired(Two tires)。

讲完过后,卡特自己还自己给自己捧场,哈哈了两声。

量子位也实际体验了 2 分钟,总体感受如下:

首先,Tavus 的响应速度确实非常快,符合官方号称的 " 一秒以内 "。

哪怕是他在说话的过程中你突然出声,卡特也能立马停下来倾听你的最新发言。

其次,虽然官方号称它支持 30 多种语言,但不管是用中文还是英文发问,问来问去,他都无法开口说中文

我们问他 "Can u speak Chinese" 时,卡特会回答:" 我更愿意用英文对话呢!"

第三,Tavus 的 AI确实能 " 用眼睛看 "

量子位试玩儿过程中,一度尬住,不知问什么是好,只能傻笑。

卡特立马开口:

Oh!你对我露出了一个微笑呢~

第四,在试玩版本中,卡特的口型和所说的话几乎能做到完全同步

这也就不难怪为什么有网友试玩后表示:

确实令人印象深刻,它拥有快速响应、出色的视频和音频生成能力。

现在,只要注册就可以使用 Tavus 的对话视频 AI。

正式版本中,可供对话的 AI 形象就不只有卡特了,有男有女,身份设定从销售到生活指导等,应有尽有。

聊天所在的背景也能根据用户选择进行更换,不拘泥在办公室场景中。

同时,还能手动输入对话内容的上下文

可以说个性化定制程度算很高了。

目前有免费版本,也有收费形式,对应不同的生成权益。

基于自研模型开发

Tavus 对话视频 AI 背后,是 Tavus 团队自研的 Phoenix-2 模型。

这是一个用音频和文本驱动的 3D 模型和 2D GANs 的组合,能生成 1-2 分钟的逼真短视频。

生成过程大致分为以下四个步骤:

TTS(文本转语音)——头部和肩部的 3D 重建——提示词脚本驱动的面部动画——高保真渲染。

通过差分渲染微调面部几何细节

为了让和用户对话的 AI 形象更逼真,Tavus 团队在构建 Phoenix-2 的视频渲染 pipeline 的时候,结合了 GAN 和 3D 高斯泼溅。

这样做的原因,是传统的 GAN 通常受到图像分辨率的限制,而体积模型总在时间一致性的问题上有所欠缺。

因此,Tavus 想到把两者结合起来。

训练 GAN 时,需要大量的数据集和昂贵的计算资源,且因为其二维性质和时间一致性问题,通常推理时间和视频质量都会受限。

Tavus 把 3D 模型作为 " 中间体 ",实现了超过 100 FPS 的渲染,并且由于动态物体周围的物理感知约束,实现更高程度的可控性和通用性。

比较 2D 和 3D 头部说话模型之间的差异

另外,Phoenix-2 模型比起系列前作的改进之处,就是替换掉了初代 Phoenix 模型的 NeRF。

转而利用 3D 高斯泼溅来学习引入如何驱动 3D 空间中的面部动态变形,并利用该信息根据看不见的音频来渲染视图。

团队成员表示,比起 NeRF,3D 高斯泼溅在数据、内存、计算复杂度、流程、渲染效率等方面都表现更好。

基于 3D 高斯泼溅的 Phoenix-2 模型的 pipeline,能够以比初代模型快 70% 的速度进行训练,以 60+FPS 的速度进行渲染。

Tavus 表示,对话过程中,有回合结束检测和可中断性,让用户感觉进行的对话更真实。

此外,由于面部信息非常敏感,团队提供安全检查、安全协议、自动内容审核和反幻觉检查来保护信息安全。

值得一提的是,Phoenix 系列模型还支撑了 Tavus 的另一个产品——

生成用户数字孪生形象的对话视频。

只需要提供 2 分钟素材、花费 1 美元(起),就能调用 API 生成视频内容。

官方提示可提供端到端的解决方案,有以下能力:

使用 API,构建安全、真实的数字孪生或 AI Agent

定制 LLM、对话的人物角色和背景

在嵌入式会议室中流式传输对话

记录、转录并分享对话

通过生产级可扩展性处理高流量

" 不 <1s,就不是人了 "

Tavus 团队是一家成立四年的 AI 视频初创公司,规模不大。

成员大多来自 Amazon、Descript、Google 和 Apple 等。

公开资料显示,截至今年 3 月,该公司已经获得了红杉、Scale VC、YC 的 A 轮投资,融资额约 1800 万美元。

Tavus 的联合创始人兼 CEO,名叫Hassaan Raza

曾在谷歌和苹果工作过。

而该公司的联合创始人兼 COO 在 Producthunt 留言表示,对话视频 AI 的制作花费了很长时间,研究、工程和建造大约花费了数千个小时。

至于为什么要追求 1 秒或者更短的延迟?

官方也给出了答案,是在尽可能模拟人类和人类的视频对话

因为如果反应速度不低于 1 秒,那(对面跟你聊天的)就不是人了。

参考链接:

[ 1 ] https://www.tavus.io/careers

[ 2 ] https://x.com/heytavus/status/1824075891271749903

[ 3 ] https://www.producthunt.com/posts/conversational-replicas-by-tavus

—  联系作者  —

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

逗玩.AI

逗玩.AI

ZAKER旗下AI智能创作平台

相关标签

ai 卡特 量子位 界面 数字孪生
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论