日前亚马逊方面发布新一代语音模型 Nova Sonic,并号称其能够捕捉语调、语调和节奏,从而更深入地理解人类的对话。
据了解,Nova Sonic 能够原生处理语音输入、并生成自然流畅的语音输出。对此亚马逊方面表示,这种统一使得 Nova Sonic 能够根据声学环境(例如音调、风格)和输入调整生成的语音响应,从而产生更自然的对话。此外其还指出,在响应速度、语音识别准确率和对话质量等核心性能指标上,Nova Sonic 已达到与 OpenAI、谷歌等竞争对手旗下旗舰语音模型媲美的水平。
值得一提的是,亚马逊方面透露,与竞品相比,Nova Sonic 在将用户请求路由到不同 API 方面表现出色。这一能力也使得 Nova Sonic 能够知晓何时需要从互联网获取实时信息、解析专有数据源,或者在外部应用程序中采取行动,并使用合适的工具来完成任务。
而且在双向对话中,Nova Sonic 会考虑到说话者的停顿和打断等情况,并等待 " 合适的时机 " 发言。此外 Nova Sonic 还能够为用户的语音生成文本记录,使开发者能够利用这些文本调用特定的工具和 API,从而构建更为强大的语音 AI 代理。
据亚马逊 AGI 部门首席科学家罗希特 · 普拉萨德透露,Nova Sonic 的部分技术已经应用于由生成式 AI 驱动的全新 Alexa+ 中。
据了解,目前 Nova Sonic 已通过 AWS 旗下的 Amazon Bedrock 开发平台开放,并采用了创新的双向流式 API 接口。而在价格方面,其售价相比 OpenAI 的 GPT-4o 便宜约 80%。对此亚马逊方面强调,该模型在成本效益方面具有显著优势。
【本文图片来自网络】
登录后才可以发布评论哦
打开小程序可以发布评论哦