钛媒体 09-08
硬件多模态交互开发套件,客户产品交互频次70%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

场景描述

随着 AI 能力进步,越来越多的传统硬件厂商以及基于小模型 AI 能力构建的智能硬件厂商,迫切得需要升级到大模型以提升交互体验。然而,对于众多企业来说要想保障低延时交互的同时,又要确保模型的效果并且引入外部服务丰富 AI 能力,还要兼顾成本就变得尤为挑战。

众所周知,想要低时延则模型尺寸不能过大,而模型尺寸偏小又会带来效果问题;想要引入更多的外部服务来丰富 AI 能力,则工程链路必然更复杂,工程链路的冗长又会带来高时延问题。

面对这些挑战,众多硬件厂商急需一种兼顾成本、时延、功能、效果并且易用的解决方案。

解决方案

阿里通义实验室,深刻认识到消费电子行业升级 AI 能力的紧迫性和重要性,为了解决上述挑战,决定建设多模态交互方案。

该方案借助通义实验室的应用算法能力,对 AI 硬件的常见场景进行了分析,专项定制了数个小尺寸意图识别模型,在确保效果的同时最大程度降低时延。另外依托于阿里云百炼平台的生态,使得用户可以灵活自主得添加各类接口、MCP、智能体,极大程度得扩展了应用的能力边界。而且在阿里云自研算力的加持下,保障了性能和稳定的前提下让成本可控。使其最终成为硬件厂商用得起、用得好的解决方案。

成效

面向消费电子产品,提供结合了意图识别、安全审核、长期记忆、联网搜索、Function call 与 Agent 灵活插拔的语音、视觉多模态实时交互的一站式解决方案:

1. 低延时,语音对话最低不足 1s,视频流对话最低 1.5s

2. 丰富的内置技能与 Agent(互联网搜索、设备控制、天气、翻译、新闻)

3. 从上下文到备忘录到长期记忆的多级记忆,记忆召回 F1 值 90% 以上

4. 意图识别模型准确率 95% 的前提下时延低于 200ms

阿里云为听力熊、希沃、深励科技等厂商提供的多模态交互解决方案使得其多款产品的 AI 体验大幅度提升,无论是情感陪伴、学习教育、语音控制、视觉理解都赢得了最终用户的好评和赞誉,用户粘性大幅提升,产品使用时长和交互频次分别提升 20% 和 70%。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 阿里云 效果 听力 翻译
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论