阿里推出WanStreamer,实现AI全双工实时交互

阿里通义团队刚刚发布的 Wan Streamer，真正让 AI 告别了 " 你一句我一句 " 的机械式应答，实现了像真人视频通话一样可以随时插话、边听边说的全双工实时交互体验。

核心突破：打破 " 回合制 " 限制

传统的 AI 对话通常是单向的 " 回合制 "（用户说完 → AI 识别 → AI 回复），而真实的人际交流中，感知与表达在时间上是重叠的。Wan Streamer 的核心突破在于实现了真正的全双工（Full-Duplex）通信：- 实时倾听反馈：当用户说话时，AI 能表现出点头、皱眉等可见的自然倾听行为，而非呆板等待。- 支持随时打断：AI 在回应时依然在持续感知用户，用户可以随时出声或做手势打断，模型能立即理解并无缝调整当前的动作与话语。

底层架构：从 " 剧组拼盘 " 到 " 单一演员 "

Wan Streamer 彻底抛弃了传统数字人依赖的 " 麦克风 → 语音识别 ( ASR ) → 大模型 → 语音合成 ( TTS ) → 渲染模块 " 级联流水线，将所有的模态和计算过程统合到了一个单一的 Transformer 中。- 规避累积误差：传统级联系统中，任何一个模块卡顿或听错字都会导致后续全盘出错，而端到端架构将这些环节变成了神经网络内部的统一参数计算，极大降低了延迟与信息丢失。- 解决音画错位：过去拼接的系统容易出现口型与声音对不上的问题，新架构从根源上避免了这一违和感。

技术设计与部署巧思

为了支撑实时的流式交互，该模型在底层技术与部署方案上进行了全栈重构：- 多模态 Token 交错：视觉、音频、文本的输入与输出 Token 被无缝交错排布，通过块因果注意力（block-causal attention）机制实现增量式生成。- 音视频联合生成：文字采用 next-token 预测进行 " 内心独白 "，而音频和视频共享同一份上下文，通过条件 flow matching 进行联合去噪，确保表情能配上语气。- 全栈因果化改造：底层的音视频 VAE、编码器与解码器全部改造为严格因果结构，确保组件仅依赖过去的信息即可工作。- Thinker-Performer 双卡流水线：实际部署时拆分为两张 GPU 协同。由 " 思考者（Thinker）" 负责编码视听输入与语言预测，" 表演者（Performer）" 专责生成下一段音视频 latent，两者错开重叠执行，最大程度降低硬件等待时间。

性能表现与当前局限

极致的低延迟：在实际部署测试中，模型侧响应延迟被压缩至仅约 200ms；即使算上约 350ms 的双向网络延迟，整体交互延迟也仅有 550ms 左右，真正实现了亚秒级响应。

高帧率输出：支持 25fps 的流畅音视频实时输出，是开源领域中少数能原生同步输出音频和视觉分身的模型。

版本现状提示：作为概念验证的 v0.1 版本，Wan Streamer 目前的输出分辨率暂时限制在 192p，且官方尚未透露具体的模型参数量与技术细节报告。现阶段的核心目标在于验证技术路线的可行性，画质清晰度与实际应用效果仍有较大的后续迭代空间。

行业价值与应用前景

Wan Streamer 的真正价值不在于刷新了某个画质指标，而是证明了一条技术范式是可行的：实时全双工音视频交互可以、且应该用单一端到端模型来实现，而不是继续堆叠外部流水线。- 应用落地：这种随时插话、实时理解上下文的能力，对 AI 伴侣、数字人直播、智能客服、机器人以及智能座舱等交互密集型场景具有极高的应用价值。- 技术基座：它为未来高拟真、低延迟的虚拟人交互应用，奠定了一条极具潜力的技术基座。

本文由 AI 生成

宙世代

一起剪

相关标签