2025 年 9 月 19 日,由我爱音频网主办的【2025 亚洲 AI 音频大会】在深圳湾科技生态园发布中心成功举办,该大会以「" 耳 " 闻新世界」为主题,吸引了许多行业内专业人士、企业代表和技术爱好者。
2025 亚洲 AI 音频大会始创于 2017 年,前身为中国蓝牙耳机大会,目前已经连续举办 8 年 14 届,累计参与人员突破 50000 人,成为了行业现象级大会。该大会以论坛研讨形式为主,聚焦行业热点产品、技术、应用,进行精准的关键信息共享,促进行业伙伴们进行快速、直接的合作与交流。
本次大会共邀请到了 9 位全球知名企业代表进行精彩分享,演讲内容涵盖了可听设备、动铁、AI 音频芯片、AI 音频应用、语音交互、AI 硬件、智能眼镜等热门话题。近期,我爱音频网将陆续为大家分享「2025 亚洲 AI 音频大会」演讲回顾,此篇文章将要介绍的是科大讯飞产品总监 吴如松先生的演讲内容。
科大讯飞
科大讯飞是亚太地区知名的智能语音和人工智能上市企业。自 1999 年成立以来,一直专注智能语音、计算机视觉、自然语言处理、认知智能等人工智能核心技术研究并保持国际前沿水平。作为人工智能 " 国家队 ",科大讯飞承建了中国唯一的认知智能全国重点实验室和语音及语言信息处理国家工程研究中心。科大讯飞积极推动人工智能源头核心技术研发和产业化落地,致力于 " 让机器能听会说,能理解会思考,用人工智能建设美好世界。"
AIUI 开放平台语音交互技术演进和应用
吴如松先生是科大讯飞 AI 交互产品总监,是 AIUI 人机交互开放平台产品负责人。本次 AI 音频大会上,吴如松先生为观众带来了《AIUI 开放平台语音交互技术演进和应用》的主题演讲。
演讲开场,吴如松先生重点介绍了 AIUI 开放平台。这是讯飞 2015 年推出,专注人工智能语音交互的一站式开发平台,汇聚了大模型、降噪算法、声音、图像、数字虚拟人、硬件模组等人机交互全链路软硬件核心能力。
讯飞 AIUI 从 2023 年初就开始做大模型语音交互,大会上吴如松先生分享了他们在语音对话频次、不同场景下交互频次方面的研究数据。此前,人机交互单次对话轮数一般在两到三轮,而大模型交互整个人机交互对话轮数提升到十几轮。平台数据显示,家庭、儿童、机器人等场景交互数据飙升,尤其是儿童场景,大模型交互次数较传统指令交互增长了 733%。这些数据的增长,也让讯飞 AIUI 对大模型语音交互的未来充满期待。
讯飞把 AIUI 平台定义为智能硬件的人机交互大脑。接入 AIUI 平台之后,你的智能硬件不仅能够语音指令控制,还能查询实时的内容,帮你实现语音交互的业务拓展,同时还能跟人一样去聊天。更重要的一点是讯飞尽可保障端上集成不变化,在云端做好各项 AI 能力的升级,比如最近升级的大模型极速超拟人交互,在云端讯飞做了全流式的对接,并接入第三方模型、知识库等能力,保证平台云端的人机交互效果不断提升。吴如松先生表示:这些云端的升级,即便是客户上市的产品,也可以无感升级的体验到 AIUI 的最新效果。
随后,吴如松先生在演讲中分析了让语音交互更加自然的特点。讯飞认为语音交互自然要解决两个问题:全双工交互、情感贯穿。现在大模型 VAD 已经很智能地识别人声和噪声,也能很好的分辨出对人是不是在和机器对话。通过把人说话的音频给到云端,利用语气、语调等副语言信息能够实现更加准确的情绪检测,从而让模型能够情绪共鸣、结合超拟人合成回复等实现更拟人化的交互。
为此,讯飞也做了很大改变,它专门为交互场景打造了交互大模型。通用的大模型,对用户的提问会直接生成大篇幅内容,经过合成后播报甚至需要两三分钟,不符合人自然对话的习惯。而讯飞的交互大模型会以渐进式的对话去跟用户进行交流,主动性更强,交互更自然。同时平台提供丰富的内容信源,还有类人记忆系统,内容安全实时审核。平台还提供二次开发的能力以及与其他模型兼容的能力。讯飞的多模态降噪和多模态理解还可以进一步赋能更多复杂场景和更多产品。
吴如松先生表示:科大讯飞 AIUI 平台已经做了十年,每一年都会对平台技术方案进行迭代升级,讯飞的每一次升级都会考虑向前兼容,为平台开发者提供长期稳定的服务保障。接入 AIUI 平台的设备上市三年、五年甚至十年,它依然可以使用 AIUI 服务。AIUI 平台一直在不断精进,为开发者提供更自然、更快速、更实用的语音交互体验。
在详细介绍 AIUI 人机交互平台的能力后,吴如松先生进一步对应用场景进行了分享。面对不同场景的智能硬件,AIUI 对特定功能和解决方案持续打磨。演讲中,吴如松先生重点介绍了它们平台针对 AI 玩具场景做的很多优化。
讯飞为儿童产品做了专属交互方案设计,自研的童言识别引擎,可以解决儿童发音含糊不清、叠字等导致识别不精准的问题;依托讯飞积累的儿童交互数据,专门训练了童语理解模型,解决儿童表达跳跃导致的理解偏差问题,让 AI 更懂孩子,并结合一句话声音复刻、超拟人合成实现更自然亲切的关怀和情感回应。
演讲的最后,吴如松先生还介绍了讯飞针对家庭泛屏娱乐影视、音乐、美食、医疗等智能体,讯飞多麦阵列降噪的智能眼镜方案,机器人超脑、机器人智能语音背包等产品。AI 眼镜是当下的热门赛道,讯飞的 AI 眼镜最大亮点之一是多麦阵列降噪技术,它搭载了 16 个麦克风,极大提升了高噪场景的交互效果。
今年具身智能也是一大火热领域。早在 2022 年,科大讯飞就启动了 " 讯飞超脑 2030 计划 "。大会上,吴如松先生也重点介绍了讯飞打造的机器人超脑平台。在端侧,该平台可以提供多模态降噪分离、人脸识别跟踪、物体识别检测、端侧大模型、离线识别合成;在云端,可提供语音识别大模型、超拟人合成、极速超拟人对话、AI 人设、具身智能理解等 AI 能力。机器人超脑平台以视听融合的感知交互结合基于大模型的云端机器人大脑,通过软硬一体的产品形态面向个人开发者、机器人厂家提供机器人 AI 技术服务。
吴如松表示:以往机器人更侧重运动控制的能力,但当下语音交互正成为机器人人机对话、自然交流的重要配置。科大讯飞凭借在语音交互领域的深厚技术积累,为机器人赋能了多模态降噪、大模型对话理解能力,结合针对机器人量身定制的即插即用的硬件,让机器人快速 " 大脑 " 升级,实现听懂指令、开口交谈。
我爱音频网总结
吴如松先生的演讲,让现场观众详细了解了讯飞的 AIUI 一站式大模型语音交互开发平台。语音交互正成为 AI 玩具、AI 眼镜、机器人等各大智能硬件的标配,讯飞打造的 AIUI 人机交互平台,在录音降噪、语音识别、自然对话、情绪感知、多模态理解等方面展现了出色的技术实力,可以深度赋能儿童玩具、智能眼镜、家庭泛屏智能体、机器人等智能硬件,显著提升它们语音交互的能力。
登录后才可以发布评论哦
打开小程序可以发布评论哦