IT之家 前天
AI 实时语音深度伪造技术实现突破性进展,诈骗成功率近 100%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

IT 之家 10 月 25 日消息,接触过变声器的朋友应该或多或少听说过,目前主流的语音处理方案都是会有一定延迟时间的,甚至可以说效果越逼真,延迟就越高。

据网络安全公司 NCC Group 最新披露,AI 正推动语音深度伪造技术走向 " 实时 " 阶段,攻击者可在通话中即时模仿他人声音,诈骗成功率近 100%。

实时语音伪造技术突破

这项被称为 " 深度伪造语音钓鱼(deepfake vishing)" 的技术,通过 AI 模型学习目标人物的声音样本,可在定制网页界面上由操作者一键启用,实现实时语音 " 转译 "。

研究人员表示,该系统仅需中等计算性能即可运行。在一台搭载英伟达 RTX A1000 显卡的笔记本上,他们实现了不到 0.5s 的延迟,而且没有之前的那种停顿和不自然感。

测试表明,即便只是使用低质量录音,该系统仍能生成极其逼真的语音副本。相比以往需数分钟训练、仅能生成预录音频的旧式语音伪造工具,这一系统可在通话中根据人的意愿实时调整语调和语速。这意味着普通人也可以借助笔记本电脑或智能手机实现类似效果,进一步降低了恶意利用门槛。

测试结果显示欺骗率极高

NCC Group 安全顾问 Pablo Alobera 表示,在经授权的受控测试中,当实时语音伪造技术与来电号码伪造(caller ID spoofing)结合使用时,几乎在每次实验中都成功欺骗了测试对象。Alobera 指出,这一技术突破显著提升了语音伪造的速度与真实性,即使是普通电话通话,也可能被利用进行欺诈。

视频伪造尚未完全同步发展

尽管语音伪造技术已进入实时阶段,但实时视频深度伪造仍未达到相同水平。近期流传的高质量案例多依赖最前沿 AI 模型,如阿里 WAN 2.2 Animate 和谷歌的 Gemini Flash 2.5 Image,从而将人物 " 移植 " 至逼真的视频场景中。

然而,这些系统在实时视频生成中仍存在表情不一致、情绪不匹配及语音不同步等问题。人工智能安全公司 The Circuit 创始人 Trevor Wiseman 向《IEEE Spectrum》表示,即使是普通观众,也能从 " 语气与面部表情的不协调 " 察觉伪造痕迹。

专家呼吁建立新型身份验证机制

Wiseman 提到,AI 伪造技术的普及已导致实际损失。他举例称,有公司在招聘过程中被视频深度伪造欺骗,误将笔记本电脑寄往虚假地址。这类事件表明,语音或视频通话已无法作为可靠的身份验证方式

随着 AI 驱动的冒充行为日益普及,专家警告称,必须引入新的身份验证机制。Wiseman 建议借鉴棒球比赛中的 " 暗号 " 概念,使用独特且结构化的信号或代码,以在远程交流中确认身份。他强调,若不采取此类措施,个人与机构都将面临越来越复杂的 AI 社会工程攻击威胁。

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 深度伪造技术 效果 谷歌 英伟达
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论