快科技 4 月 9 日消息,亚马逊正式推出新一代生成式 AI 语音模型 Nova Sonic,标志着其在人工智能语音领域取得重大突破。
这款创新模型能够原生处理语音输入并生成自然流畅的语音输出,在速度、语音识别准确率和对话质量等核心性能指标上,已达到与 OpenAI、谷歌等科技巨头的尖端语音模型相媲美的水平。
Nova Sonic 通过亚马逊 Bedrock 开发者平台提供服务,采用创新的双向流式 API 接口,为企业级 AI 应用开发提供了强大支持。亚马逊特别强调,该模型在成本效益方面具有显著优势,其价格比 OpenAI 的 GPT-4o 便宜约 80%。堪称目前市场上最具性价比的 AI 语音解决方案。
与竞争对手的 AI 语音模型相比,Nova Sonic 在将用户请求路由到不同 API 方面表现出色。这一能力使得 Nova Sonic 能够知晓何时需要从互联网获取实时信息、解析专有数据源,或者在外部应用程序中采取行动,并使用合适的工具来完成任务。
在双向对话中,Nova Sonic 会等待 " 合适的时机 " 发言,会考虑到说话者的停顿和打断等情况。此外,Nova Sonic 还能够为用户的语音生成文本记录,开发者可以将这些文本用于各种应用场景。
亚马逊 AGI 部门首席科学家罗希特 ? 普拉萨德透露,Nova Sonic 的部分技术已经应用于升级版数字助手 Alexa+。该模型的推出是亚马逊构建人工通用智能 ( AGI ) 战略的重要一步,未来还将推出支持多模态理解的 AI 模型,涵盖图像、视频及其他物理世界感知数据。
登录后才可以发布评论哦
打开小程序可以发布评论哦