钛媒体 06-11
网易有道AI语音团队负责人孙艳庆:AI技术如何更好与硬件结合
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

网易有道 AI 语音团队负责人孙艳庆

6 月 9 日,首届 CTiS 2021 消费者科技及创新展览会在上海新国际博览中心正式开幕。在钛媒体联合 CTiS 共同打造的 "AI · 创新数字生活主题论坛 " 上,网易有道 AI 云团队负责人孙艳庆博士分享了 AI 技术在网易有道智能硬件中的一些应用。

网易有道产品,除了智能硬件之外,还有大家熟悉的有道词典等工具类的产品,以及精品课在线类的学习服务,包括数字类的教育。这里面有哪些 AI 技术,以及这些 AI 技术到底怎么样能够很好的和硬件形态进行结合?在孙艳庆看来,一定要找到一个痛点,具体到网易有道的产品中就是怎么解决儿童的背诵、学习语言、查词等。

产品中的 AI 

以有道翻译来说,这是从 2008 年就已经开始做的一项技术,至今已经做了十几年,孙艳庆介绍,经过三到四代核心技术引擎的发展,目前已经变成了神经网络的翻译引擎。除了简单的文字翻译,还加入了很多模态的形式,比如说图片翻译、文档翻译、语音翻译、AR 翻译。它除了在手机端联网的方式,还可以在离线,完全没有网络的时候去应用。而且在词典笔的形态上,就可以得到一个很好的落地。

此外,如果进行一个扫描或者点查,非常关键的技术是需要做 OCR,就是把这个图片变成文字。有道的 OCR 技术目前支持 100 多种主流的语言文字,也可以在不同的场景下使用,比如说有时候扫描的并不是一个简单的单词或者例句,可能会是一个公式,或者手写的数学答案等等,所以针对不同的领域,也会做到一些定制的场景垂直化应用。

还有语音交互技术,比如在词典笔的场景下需要语音的录入,语音识别要想得到一个很好的效果,比如在场馆里会有很多噪音,就需要做声学前端的信号处理。当然也有把这个单词读出来,去做语音合成。它其实就是通过语音进行人机交互的一个技术手段。

技术与硬件结合

如果直接把一个手机给到孩子,不仅要担心他学习的效果,也会担心他去玩游戏或者看视频。

孙艳庆介绍说,在智能软件的场景下,需要用手机从众多 APP 中去下载有道词典,再去打开它,找到所需要的功能页。而硬件的一个好处就是,拿到这个词典笔就可以直接去扫描或者点查,就能得到结果了,所以它会非常快。而且它会搭载和儿童,或者目标用户群体非常相关的功能,比如说互动点读。还有非常重要的一点,它是学习专用,可以带到课堂上。

词典笔用了哪些技术,这些通用的技术又是如何和硬件更好的结合起来的?

第三代词典笔在扫描、扫查的功能上又加入超快点查。这个功能让识别范围更广,除了纸面,包括很多商品的印刷品包装,都可以进行查词。

孙艳庆介绍说,具体是把多项技术、把 OCR 和 OID 进行了结合。在早期词典笔摄像头扫描的广角是比较小的,为了支持超快点查,硬件也做了很多适配,包括广角提升了 300% 的效果。所以 AI 和应用的联合,才能打造一个综合的更好的体验。这也是全球首创的技术。

词典笔不光能够查词,还可以去读绘本,和用户做互动。孙艳庆说,这个互动点读功能也是新发布的一个卖点,或者是一个杀手级的应用,它整个链条有这么几步:首先要在绘本上做一些铺码识别,还有麦克风双麦拾音,这样保证在嘈杂环境下也能有比较好的拾音表现,再加上语音识别。

如,学生在听了阅读的标准发音之后,他是可以进行实时的练习。传统上来讲,他要说完了才能给出一个打分,这样的体验不是特别及时。这个互动点读的功能,就可以在他边读的时候就边出文字,就跟背诵是很类似的效果。为了达到最终的体验,也需要通过 AI 的技术来处理大量的素材,包括绘本资源、图像和音频,包括字幕的对齐,字幕的生成等等。

所以,什么样的硬件是好的产品?什么样的 AI 技术是好的技术?以及技术和产品如何落地结合?在孙艳庆看来,一定要找到一个痛点,比如怎么解决儿童的背诵、学习语言、查词等等。

下一步探索

关于未来的展望,孙艳庆说,第一,希望语言的学习不局限在英文,还可以学习中文,包括还有一些朋友去学习第二外语或者第三外语;另外,产品支持全学科,不光在语言学习类,还会支持数学的公式扫描和识别。孙艳庆认为,知识体系的构建是非常重要的,包括学习的资源,包括很多知识点。这是教育更加综合的一个思路。

在英语的学习中,不同国家的用户他会有很多口音的差异,比如中国人说英语,中式英语,日本人说英语,以及印度人等等。全世界一百多个国家都把英语作为母语或者第二语言,其实英语的识别本身是非常有挑战的,口音成为对英语语音识别非常大的影响和挑战。

在 2020 年语音届盛会 Interspeech 口音英语语音识别挑战赛中 , 网易有道研究人员提交的系统在口音识别任务中排名第二。可以看到的,在很多国家或者很多口音,识别率还是没有达到非常完美的效果。孙艳庆说,好的可以做到百分之九十以上,差的也就只有百分之六七十的效果,这个领域还是值得继续去探索。

除了口音英语值得探索,另外就是儿童发音,尤其是非母语的儿童去说英语,或者是其他的语言,更是难上加难,因为它叠加了两个挑战:非母语和口音。

今年 Interspeech 也有一项比赛,网易有道拿了两个赛道的第一名," 但即使是最好的成绩,错误率仍然是大于 20%。这是什么概念?可能五个单词就会有一个是错误的。这和我们理解也是一致的,因为儿童发音有他的特点,因此本身这个任务就是比较难的。这个方向我们还会继续去探索。" 孙艳庆说。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App

相关标签

ai 有道词典 网易有道 翻译 效果
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论