智东西 03-06
声网对话式AI引擎发布!2行代码+15分钟,让大模型开口说话
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

作者 | 程茜

编辑 | 云鹏

智东西 3 月 6 日报道,今日下午,声网对话式 AI 引擎正式发布,其拥有 650ms 超低延时响应、优雅打断、全模型适配等五大能力,可支持任意文本大模型快速升级为 " 能说会道 " 的对话式多模态大模型。

在价格方面,经声网内部测算,对话式 AI 引擎 1 分钟不到 1 毛钱,每分钟价格为 0.098 元。

一、现场对话丝滑,对话式 AI 引擎四大优势:多快好省

现场,声网生成式 AI 产品负责人毛玉杰和对话式 AI 引擎对话,主要进行了中英文翻译、优雅打断、餐厅推荐等演示。

这一对话式 AI 引擎的优势,声网 AI RTE 产品线负责人姚光华用四个字进行了概括:多、快、好、省。

具体来看,多指的是智能多、音色多,包括模型都能选、语音合成自由选择和定制。

声网对话式 AI 引擎支持全球几乎所有大模型厂商,只要与 OpenAI 接口协议兼容的模型厂商,全部原生支持,同时支持全球主流语音合成供应商任意切换,客户在供应商处定制、克隆等自定义音色也能上线。

快指响应快、打断快。也就是超低响应延时和超低打断延时。

声网对话式 AI 引擎的响应延迟中位数为 650ms,打断延时中位数为 340ms。

好是情商高、真拟人、无惧燥声弱网。

声网对话式 AI 引擎可以做到优雅打断,同时在周围人声很多时,基于选择性注意力锁定,锁定对话人声,准确识别谁在说。人模对话场景下,该产品可以实现抗丢包 80% 以上,断网 3-5 秒能流畅对话。

省是指开发省心,姚光华透露,从对话时 AI 引擎 Console 到任意模型开口说话,需要 2 行代码 +15 分钟。

价格方面,智能体通话价格 0.098 元每分钟,免费额度 1000 分钟(一次赠予)。

经声网内部测算,用户与 AI 每产生 1 次对话中,平均会有约 3 轮问答,计算下来平均对话时长约为 21.1s,单次成本仅需 3 分钱。如果每月对话次数 15 次,那么月成本不到 5 毛钱,年成本也只需 5 元。

二、全球首个对话式 AI 产品,横跨模态感知 + 模态融合

声网 AI RTE 产品线负责人姚光华还谈到了几个对话式 AI 的里程碑事件。

2024 年 5 月 13 日,OpenAI 发布具备看、听、说的能力的 GPT-4o,他认为这是对话式 AI To C 的原点。2024 年 10 月 1 日,OpenAI 发布 Realtime API;2024 年 10 月 24 日,声网和 MiniMax 发布国内首个 Realtime API。

最新的一个里程碑事件就是,今天声网对话式 AI 引擎正式发布,这也是全球首个对话式 AI 产品。

在姚光华看来,对话式 Agent 给用户带来的价值有问题得到解决的智能价值,还有情感共鸣的情绪价值以及效率跃升的时间价值。

Agent AI 从感知到智能,主要包含四层:模态感知层指的是 Agent 要感知物理世界的信息,对音视频做处理和转换;模态融合层指对感知到的信息进行统一多模态处理;任务处理层是面向目标和任务进行处理和解决;顶层智能层是高级认知与学习能力,具备超高情商。

声网对话式 AI 引擎,横跨的是模态感知和模态融合层。

结语:对话式 AI 热潮涌起

从仅基于文本的聊天机器人和语音助手,转向能理解和响应文本、声音、图像、手势等多种输入的时代,为用户提供多感官交互体验。这样一来,AI 能更好地理解和响应微妙的语音命令,使语音交互更直观、友好。

借助声网对话式 AI 引擎,开发者能够迅速部署智能助手、虚拟陪伴、口语陪练、智能客服、智能硬件等对话式 AI 场景,加速对话式 AI 融入各行各业。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 供应商 语音合成 杰和 准确
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论