作者 | 程茜
编辑 | 漠影
智东西 4 月 18 日报道,这一周,2025 年大阪 · 关西世博会(大阪世博会)上,本届世博会面积最大的外国自建馆之一中国馆无疑成为焦点。
从 " 嫦娥五号 "" 嫦娥六号 " 带回的月壤样本,到 " 蛟龙 " 号深潜器的体验舱,一件件代表中国科技实力的 " 大国重器 " 精彩亮相。而在 AI 领域,中国馆也带来了令人眼前一亮的互动展项——由科大讯飞联合打造的 "AI 孙悟空 "。
中国第一部彩色动画长片《大闹天宫》中的 " 孙悟空 " 形象,是国人心中当之无愧的动画英雄。这一次,在讯飞星火大模型的科技赋能下,"AI 孙悟空 " 用中日英三国语言实时与观众进行对话交流、传播中国文化,化身世博会中国馆的 " 导览小能手 ",图文并茂地介绍中国地道美食以及意境深远的古诗词。
这些齐齐亮相的硬核科技和创新成果,正成为中国科技实力的生动注脚。
一、"AI 孙悟空 " 化身中国馆宣传大使,三国语言自由切换
上个世纪 60 年代,上海美术电影制片厂出品的《大闹天宫》中,齐天大圣的形象深入人心。为了体现传统文化与 AI 大模型的结合,科大讯飞将身穿虎皮裙、手拿金箍棒的 "AI 孙悟空 " 搬到了世博会的中国馆里,此 AI 大模型展项由上影元联合共创。屏幕上的 "AI 孙悟空 " 出场效果惊艳,依托讯飞星火的技术,语言交互、AI 作画功能让孙悟空 " 七十二变 " 的本领变得切实可感,引得不少观众交流互动。
话不多说,先来一览 "AI 孙悟空 " 在大阪世博会中国馆上的精彩表现。
走向国际舞台,"AI 孙悟空 " 的外语能力自然不在话下,面对现场观众中、日、英三国语言的提问,"AI 孙悟空 " 自如切换,流畅回答现场观众的问题。不仅多语言对话功底深厚,中日英三国语言的回答都完全忠于角色特点,即使说日语、英语时也能和动画片中角色风格保持一致。
自世博会开园以来,前来参观的观众络绎不绝,熙熙攘攘的会场里人声鼎沸,然而,即便在这样的嘈杂环境中,"AI 孙悟空 " 依然可以精准捕捉到观众的声音,并快速给出准确的回答,可见孙悟空的 " 听力 " 功底也是非同一般。
光会说外语还不足以体现 "AI 孙悟空 " 的多才多艺,它还可以 " 写诗作画 "。配合着屏幕进行图文并茂的展示,"AI 孙悟空 " 直接将 " 大漠孤烟直 " 这句古诗词的景象 " 画 " 了出来。
0
科大讯飞虚拟人平台总经理郜静文称,科大讯飞团队对 "AI 孙悟空 " 重点打造的能力集中在数字人和星火大模型的问答能力之上。基于上影元为孙悟空构建的 3D 模型,科大讯飞进行了大量的 AI 化工作,既要让孙悟空动起来,还要结合大模型能力让其回复、动作表现、与人交互的方式方面更还原孙悟空形象。
科大讯飞为世博会定制的 "AI 孙悟空 ",上知天文、下知地理、通晓三国语言,成为世博会上一个非常引人注目的 " 中国名片 "。
二、拆解 "AI 孙悟空 " 背后的技术密码
"AI 孙悟空 " 强大的能力背后,科大讯飞想要传递的正是中国在 AI 方面的深远积淀。当下全球科技圈内,大模型能力迅速崛起成为新一轮科技竞争与国际发展格局重塑中的关键变量。
惊艳众人的 "AI 孙悟空 " 背后,一系列前沿技术的支撑不可或缺。
首先是在人声鼎沸的场馆内,让 "AI 孙悟空 " 听得足够清楚的高噪场景语音识别技术。
语音已经成为人们在诸多场景的高频交互方式,但实际应用中往往会面临嘈杂环境识别不清、多人说话识别混乱等诸多问题,也就是语音识别领域的 " 鸡尾酒会 " 难题。解决这一难题的关键在于 " 抗噪 " 技术的处理,即如何在多人对话的场景中,精准识别出多位主讲人的声音。
而科大讯飞的技术团队早已突破这一难题。去年 9 月,在国际权威赛事、语音领域公认 " 最难语音识别任务 " —— CHiME-8 中,科大讯飞在 " 会议室场景远场多人语音识别 "(NOTSOFAR)任务中获得全部两个赛道的第一名,自 2020 年已连续五届拿下冠军,标志着 " 鸡尾酒会 " 难题已经取得了重大突破。据科大讯飞东北亚研究院院长孙庆华介绍,科大讯飞团队实现了在多重干扰噪声场景中,对多通道语音识别和说话人分离,多通道赛道上语音识别错误率(tcpWER)降低至 10.8%,远远领先第二名的 18.7%,且在细分的 7 个声学场景下的表现都优于其他团队。
孙庆华还介绍到,语音识别准确性提升的门槛集中于数据、模型算法、复杂环境处理三大方面。
具体来看,科大讯飞围绕着输入法、翻译机、智能座舱、虚拟人交互等相关场景积累了大量真实多语种语音数据;基于上述语音识别领域的数据积累,结合无监督预训练、多模态融合技术,科大讯飞在去年 1 月就率先发布了星火语音大模型;此外,基于 " 多通道语音信号时空分离建模方法 " 实现了说话内容和环境噪声的高度解耦,提升了复杂环境中的语音识别性能。
正是在这三个维度的深耕,使得科大讯飞在语音识别领域一骑绝尘,去年讯飞星火 4.0 的发布会上,一段三个人混叠说话的语音识别场景惊艳亮相。
0
孙庆华透露,目前,科大讯飞的语音识别在三人混叠说话场景也能实现 86% 的准确率。并且在噪声比人声大很多的 -5dB 信噪比高噪场景下,其识别准确率也能达到 85% 以上,远超 OpenAI 语音识别模型 Whisper-V3。
大阪世博会期间,科大讯飞发布了双屏翻译机 2.0 新品,解决了高分贝噪音干扰、多语种混谈等痛点,其 1 米音障强降噪能力,让用户在嘈杂环境下也能进行实时翻译。
其次是多情感超拟人语音合成技术,高度还原孙悟空声线。
事实上,这一技术并不神秘,已经被用于地图导航、数字人声音等场景,讯飞星火也曾在去年 4 月推出 " 一句话声音复刻 " 功能,用户只需要用一句话就可以定制专属的 AI 助手声音,大幅降低了语音合成的采集成本。
孙庆华介绍说,"AI 孙悟空 " 通过语音大模型音色解耦技术,控制合成语音的音色,完美复刻了 86 年版《西游记》前 5 集中孙悟空的配音演员李世宏老师的声音,并让孙悟空 " 学会了 " 把日语和英语也用同样的音色说出来。如此一来,实现了孙悟空的声音穿越时空,在今天的世博会上与观众对话。
同时,为了让 "AI 孙悟空 " 的对话内容更符合西游记中孙悟空的形象,研发人员在星火多语种大模型基础上,增强了多轮对话、角色扮演能力,从性格、人格、说话特点、口头禅、说话场景等维度实施解耦,用日语再现了中国人家喻户晓的那个孙悟空的形象。
第三是 "AI 孙悟空 " 的多模态交互能力。
大模型的能力已经从单一模态向多模态融合演进,具备图片、视频、音频等生成能力的大模型层出不穷。去年 4 月,讯飞首发长文本、长图文、长语音 " 三合一 " 的星火多模态交互大模型,直接跨模态实现文字、图像、语音交互。
通过深度融合多模态交互能力与超拟人数字人技术,"AI 孙悟空 " 能依据和游客语音对话的内容,生成丰富的动作和表情,让每一个动作、每一个神态都与语言表达完美契合;同时,依托讯飞星火大模型的视觉处理图像理解与创作能力,能够基于语义需求生成高质量视觉内容,从而打造出这个能 " 写诗作画 " 的 AI 孙悟空。
最后,对各种问题都能应对自如的 "AI 孙悟空 ",离不开科大讯飞 " 奇思妙问 " 这款产品多年的技术积累。
在世博会上,"AI 孙悟空 " 饱读诗书,能够轻松应对观众关于中国传统文化、人文风情的各类问题,这一丰富的知识储备,以及让 AI 大模型达到类科学家的自由对话、问题准确理解、海量科普知识、逻辑推理能力,也是科大讯飞在教育场景不断积累的成果。
科大讯飞科学教育产品线总经理刘君谈道,奇思妙问产品的研发初衷是,在入校调研中发现的一个矛盾:学生的奇思妙想是无限的,但老师的知识储备存在边界。当孩子提出跨学科甚至 " 天马行空 " 的问题时,有时被老师敷衍、忽视甚至斥责。因此,科大讯飞决心用技术 " 接住 " 每一个问题,做一个 " 随时满足孩子‘十万个为什么’ " 的产品。她补充说,依托讯飞星火大模型及数字人技术,科大讯飞为学生构建爱因斯坦(科学)、李白(人文)等 10 位中外科学巨匠与文化名人的 AI 虚拟形象。通过深度语义理解与多模态对话能力,实时解答孩子的问题并通过启发式问答引导逻辑推理。截至 2025 年 4 月," 奇思妙问 " 已累计为 18 万中小学生解答超 362 万个问题,98.7% 的孩子获得了满意答案。
这 4 项关键的技术密码,以及多年的数据积累、实践经验沉淀,构成了大阪世博会上生动的 "AI 孙悟空 ",凭借过硬的实力在这一届世博会上火出了圈。
三、基于全国产化算力底座训练,科大讯飞展现中国科技实力
此次,"AI 孙悟空 " 作为世博会中国馆唯一大模型展项,不仅折射出科大讯飞在 AI 领域的长足积累,更是体现了中国科技发展的底气。
2022 年底大模型风起,科大讯飞迅速布局,并率先瞄准了 " 全国产 " 布局。去年 10 月,讯飞星火 4.0 Turbo 发布,彼时实现了七大核心能力全面超过 GPT-4 Turbo,数学和代码能力超越 GPT-4o;今年 1 月,发布业界首个基于全国产算力平台训练的深度推理大模型讯飞星火 X1。
可以看到,讯飞星火大模型正一步步从追赶国际先进模型到对标甚至赶超。
此外,AI 行业的发展瞬息万变,但其中的一大隐忧是算力生态的布局。因此率先洞察到这一产业趋势的同时,科大讯飞将训练基座模型和构建国产算力生态同步推进。
2023 年 7 月,讯飞星火大模型与华为昇腾自主创新算力平台结合拉开了构建全国产算力平台的序幕,3 个月后,其联手打造的首个支撑万亿参数大模型训练的万卡国产算力平台 " 飞星一号 " 启用。24 年 10 月,科大讯飞、华为、合肥市大数据资产运营有限公司三方联合打造的国产超大规模智算平台 " 飞星二号 " 正式启动。
这也使得讯飞星火大模型成为国内唯一全栈国产算力训练、推理双实现的大模型。
在 AI 发展日益激烈的当下,科大讯飞此前的技术布局与积累,正在实现交叉融合,其语音技术和大模型的结合进一步扩宽了业务场景,并逐步转化到真实场景的软硬件业务落地之上,在教育、办公、医疗等诸多场景落地。以数字人为例,科大讯飞不断探索 AI 与数字人形象相结合,将场景从传统的电话客服、企业营销等领域,逐渐扩展到面向大众的文化传播赛道,能够让 AI 大模型技术在丰富的工作、生活场景中落地,也是这次科大讯飞能够赋能 "AI 孙悟空 ",成为本届世博会上唯一大模型展项的关键。
同时,这也是厚积薄发的科大讯飞在当下交出的一张满分答卷。
结语:科大讯飞亮剑全球 AI 竞技场
在大阪世博会上,"AI 孙悟空 " 的身影,也是中国人工智能发展的一个生动缩影。它向世界证明,基于全国产化算力底座训练的国产大模型,同样能突破技术边界,展现出令人惊叹的交互能力和文化创造力。
这不仅标志着中国 AI 产业已构建起从芯片、框架到应用的完整生态链,更象征着在全球人工智能竞赛中,中国正以自主创新的姿态,成长为与全球顶尖水平并驾齐驱的 " 第二极 "。AI 的发展,不仅赋予了一个传统动画角色的新生,更是代表了一个科技大国在智能浪潮中的崛起宣言。
4 月 21 日,讯飞星火深度推理模型 X1 将再次升级,讯飞星火将在全国产算力平台上持续训练,以对标世界领先的技术水平。
登录后才可以发布评论哦
打开小程序可以发布评论哦