新浪极客前线 1小时前
阿里推出WanStreamer,实现AI全双工实时交互
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_keji1.html

 

阿里通义团队刚刚发布的 Wan Streamer,真正让 AI 告别了 " 你一句我一句 " 的机械式应答,实现了像真人视频通话一样可以随时插话、边听边说的全双工实时交互体验。

核心突破:打破 " 回合制 " 限制

传统的 AI 对话通常是单向的 " 回合制 "(用户说完 → AI 识别 → AI 回复),而真实的人际交流中,感知与表达在时间上是重叠的。Wan Streamer 的核心突破在于实现了真正的全双工(Full-Duplex)通信:- 实时倾听反馈:当用户说话时,AI 能表现出点头、皱眉等可见的自然倾听行为,而非呆板等待。- 支持随时打断:AI 在回应时依然在持续感知用户,用户可以随时出声或做手势打断,模型能立即理解并无缝调整当前的动作与话语。

底层架构:从 " 剧组拼盘 " 到 " 单一演员 "

Wan Streamer 彻底抛弃了传统数字人依赖的 " 麦克风 → 语音识别 ( ASR ) → 大模型 → 语音合成 ( TTS ) → 渲染模块 " 级联流水线,将所有的模态和计算过程统合到了一个单一的 Transformer 中。- 规避累积误差:传统级联系统中,任何一个模块卡顿或听错字都会导致后续全盘出错,而端到端架构将这些环节变成了神经网络内部的统一参数计算,极大降低了延迟与信息丢失。- 解决音画错位:过去拼接的系统容易出现口型与声音对不上的问题,新架构从根源上避免了这一违和感。

技术设计与部署巧思

为了支撑实时的流式交互,该模型在底层技术与部署方案上进行了全栈重构:- 多模态 Token 交错:视觉、音频、文本的输入与输出 Token 被无缝交错排布,通过块因果注意力(block-causal attention)机制实现增量式生成。- 音视频联合生成:文字采用 next-token 预测进行 " 内心独白 ",而音频和视频共享同一份上下文,通过条件 flow matching 进行联合去噪,确保表情能配上语气。- 全栈因果化改造:底层的音视频 VAE、编码器与解码器全部改造为严格因果结构,确保组件仅依赖过去的信息即可工作。- Thinker-Performer 双卡流水线:实际部署时拆分为两张 GPU 协同。由 " 思考者(Thinker)" 负责编码视听输入与语言预测," 表演者(Performer)" 专责生成下一段音视频 latent,两者错开重叠执行,最大程度降低硬件等待时间。

性能表现与当前局限

极致的低延迟:在实际部署测试中,模型侧响应延迟被压缩至仅约 200ms;即使算上约 350ms 的双向网络延迟,整体交互延迟也仅有 550ms 左右,真正实现了亚秒级响应。

高帧率输出:支持 25fps 的流畅音视频实时输出,是开源领域中少数能原生同步输出音频和视觉分身的模型。

版本现状提示:作为概念验证的 v0.1 版本,Wan Streamer 目前的输出分辨率暂时限制在 192p,且官方尚未透露具体的模型参数量与技术细节报告。现阶段的核心目标在于验证技术路线的可行性,画质清晰度与实际应用效果仍有较大的后续迭代空间。

行业价值与应用前景

Wan Streamer 的真正价值不在于刷新了某个画质指标,而是证明了一条技术范式是可行的:实时全双工音视频交互可以、且应该用单一端到端模型来实现,而不是继续堆叠外部流水线。- 应用落地:这种随时插话、实时理解上下文的能力,对 AI 伴侣、数字人直播、智能客服、机器人以及智能座舱等交互密集型场景具有极高的应用价值。- 技术基座:它为未来高拟真、低延迟的虚拟人交互应用,奠定了一条极具潜力的技术基座。

本文由 AI 生成

宙世代

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

一起剪

ZAKER旗下免费视频剪辑工具

相关标签

ai 阿里 神经网络 语音识别 gpu
相关文章
评论
没有更多评论了
取消

登录后才可以发布评论哦

打开小程序可以发布评论哦

12 我来说两句…
打开 ZAKER 参与讨论